过拟合与欠拟合

  1. 定义
  2. 产生的原因
  3. 解决方法

[toc]

定义

  • 误差
    模型的实际预测输出与样本的真实输出之间的差异
  • 训练误差、经验误差
    模型在训练集上的误差
  • 测试误差、泛化误差
    模型在新样本上的误差
  • 目标
    得到泛化误差小的学习机器,由于不知新的样本,只能使得经验误差最小化
  • 模型的衡量指标
    泛化能力,是指模型从训练集推广到测试集的能力
  • 过拟合、过学习overfitting
    在训练集上表现很好,在测试集上表现不好,泛化性能差
  • 欠拟合、欠学习 underfitting
    训练得到的模型在训练集上表现差,没有学到数据样本的规律

插入图片

产生的原因

  • 欠拟合
    • 模型本身过于简单,对非线性数据拟合使用线性模型
    • 特征太少,无法确立准确的映射关系
  • 过拟合
    • 模型本身过于复杂,拟合了样本集中的噪声
    • 样本特征过多,但是样本总数少
    • 样本噪声过大

      解决方法

  • 过拟合
    • 获取额外的数据进行交叉验证
    • 重新清洗数据
    • 加入正则化项
  • 欠拟合
    • 选择非线性分类器

转载请注明来源,欢迎对文章中的引用来源进行考证,欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论,也可以邮件至 jaytp@qq.com

文章标题:过拟合与欠拟合

本文作者:Espresso

发布时间:2019-12-02, 16:41:40

最后更新:2019-12-02, 17:53:03

原始链接:http://yoursite.com/2019/12/02/%E8%BF%87%E6%8B%9F%E5%90%88%E4%B8%8E%E6%AC%A0%E6%8B%9F%E5%90%88/

版权声明: "署名-非商用-相同方式共享 4.0" 转载请保留原文链接及作者。

目录
github