一句话理解:过拟合和欠拟合

一句话理解:过拟合和欠拟合 目前很多任务中经常会出现过拟合等问题,还没有找到非常通用有效的解决方案。

过拟合

过拟合(over-fitting):所建的机器学习模型在训练集中表现得过于优越,而在验证集和测试集中表现不佳。

过度拟合是指训练效果很好(模型除了有用的特征外还学习了很多无用的特征),但在测试样本上表现不佳(无用的特征会干扰模型的预测)。

为什么会产生过拟合?一般是因为参数过多,后者样本过少,为了降低loss所致。总之就是参数 / 样本这个比值太大。

判断过拟合:可以通过比较训练集和测试集上的准确率来判断。当训练集的准确率高于测试结果在其他独立数据集上的准确率时,一般是过拟合。

  • 当训练集和测试集误差之间存在较大差距时,就会出现高方差。
  • 当训练集的准确率高于测试结果在其他独立数据集上的准确率时,一般是过拟合。
  • 右上角的方差很大,训练集和验证集的准确率相差太大,应该是过拟合。
  • 我们可以通过特征选择增加训练集,降低模型复杂度,增加正则化项,或者减少特征数量。

欠拟合

欠拟合(under-fitting): 模型没有很好地捕捉到数据特征,不能够很好地拟合数据

有可能是从训练样本中提取的特征比较少,导致训练出来的模型不能很好地匹配,性能很差,甚至样本本身也不能被有效识别。

简单来说,训练模型需要识别叶子,但无法准确判断;该模型仍然需要大量的训练集来训练

判断欠拟合:训练集和验证集的准确率很低,很可能是欠拟合。

  • 高偏差是指训练集和测试集的误差收敛但很高。
  • 左上角的偏差很高,训练集和验证集的准确率都很低,很可能是欠拟合。
  • 我们可以增加模型参数(例如:构建更多特征,减少正则化项)。
  • 此时通过增加数据量是行不通的。

理想情况:找到偏差和方差都小的情况,即收敛和小误差

参考:https://www.cnblogs.com/nolonely/p/7382287.html

版权声明:本文为博主佐佑思维原创文章,版权归属原作者,如果侵权,请联系我们删除!

原文链接:https://blog.csdn.net/weixin_45288557/article/details/122957386

共计人评分,平均

到目前为止还没有投票!成为第一位评论此文章。

(0)
心中带点小风骚的头像心中带点小风骚普通用户
上一篇 2022年2月18日 下午8:49
下一篇 2022年2月18日

相关推荐