过拟合、欠拟合、高方差、高偏差

过拟合:在训练数据上表现良好，在未知数据上预测时表现差。太过于刻画细节，泛化能力差。

欠拟合:在训练数据和未知数据上表现都很差。模型没有很好地捕捉到数据特征，不能够很好地拟合数据。

过拟合会出现高方差问题（预测的稳定性差，波动大）

欠拟合会出现高偏差问题（偏离正确结果更远）

过拟合：

产生过拟合的原因：

（1) 模型的复杂度太高。比如：网路太深

（2）过多的变数（特征）

（3）训练数据非常少。

解决方法：

（1）尽量减少特征的数量（特征选择）

（2）early stopping

（3）数据集扩增

「有时候不是因为演算法好赢了，而是因为拥有更多的数据才赢了。」

（4）dropout

在训练开始时，我们随机地「删除」0.2--0.5的隐层单元，视它们为不存在，经过多次迭代，直至训练结束，每次都删除0.2--0.5的隐层单元。

（5）正则化包括L1、L2

正则化会保留所有的特征变数，但是会减小特征变数的数量级。正则化就是使用惩罚项，通过惩罚项，我们可以将一些参数的值变小。通常参数值越小，对应的函数也就越光滑，也就是更加简单的函数，因此不容易发生过拟合问题。

（6）清洗数据。

欠拟合：

产生欠拟合的原因：

因为模型不够复杂而无法捕捉数据基本关系，导致模型错误的表示数据。

解决办法：

1）添加其他特征项

2）添加多项式特征

例如将线性模型通过添加二次项或者三次项使模型泛化能力更强

3）减少正则化参数

正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要减少正则化参数。

方差：

Variance反映的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。反应预测的波动情况。

偏差：

Bias反映的是模型在样本上的输出与真实值之间的误差，即模型本身的精准度，即演算法本身的拟合能力

过拟合、欠拟合、高方差、高偏差

热门新闻

周热门

过拟合、欠拟合、高方差、高偏差

为什么softmax很少会出现[0.5，0.5]？

人工智慧领域里的Interpretability和Explainability有什么区别吗？

如何自学《模式识别与机器学习》这本书？

有哪些非黑箱的机器学习模型，或者预测演算法？

ACL 2019将会有哪些值得关注的论文？

如果不从事机器学习，人工智慧，大数据这块，未来还有机会在互联网赚钱养家吗？本人三本院校软体专业。？

新手如何上手机器学习？

本人硕一小白，最近找课题，想问问深度学习GAN这个方向有哪些具有实际应用价值还好发文章的课题?

为什么batch_size 增大会增加每一步的运算时间？

经典Python入门书籍都是python2.x, 先学这些再转3.x难不难？

深度学习如何解决低信噪比下的检测识别问题？

在2019年，使用AMD显卡是否相当于告别深度学习，未来CUDA在机器学习领域的垄断有可能被打破吗？

在深度学习领域，预训练有一定作用的本质原因是什么？

小领域知识图谱应该怎么构建？

李宏毅 吴恩达谁的课更好?

热门新闻

周热门

李宏毅吴恩达谁的课更好?