[机器学习] 一文了解欠拟合与过拟合

过拟合: 在模型训练中,如果一味追求对训练数据拟合的准确性,所得到的模型往往参数过于复杂,此时的模型学习能力太强,以至于将训练集单个样本自身的特点都能捕捉到,并将其认为是”一般规律”。对未知数据的预测能力却很差。

欠拟合: 常常在模型学习能力较弱,而数据复杂度较高的情况出现,此时模型由于学习能力不足,无法学习到数据集中的”一般规律”。

在数据集层面上理解:
过拟合:训练集上表现得很好,但测试集上表现得并不好。
欠拟合:训练集上和测试集上表现得都不好。

在实际情况中,欠拟合是容易克服的,如在决策树学习中拓展分支、神经网络学习中增加训练轮数。而解决过拟合是一个障碍,且过拟合是无法彻底避免的,但可以缓解和减小。

解决过拟合选项:
1、减少特征的数量,选择要保留的特征。
2、正则化(保留所有特征,但减少参数的大小/值。)

E.g.
1、高维数据会带来计算效率低和过拟合问题,可以减少维度。
2、logistics回归可以通过添加正则化项解决过拟合
3、如果决策树很复杂,需要用剪枝来减少复杂度避免过拟合。
4、BP神经网络中,采用提前停止策略防止过拟合(在训练过程中如果训练集误差率降低的同时,测试集的误差在升高时,就可以停止训练)。

值得一提的是在logistics回归中可以添加正则化项(各个参数的平方和的平均值)的方式解决过拟合: 正则化项为: (λ/2m)∑θi^2(1

欢迎留言讨论或补充~

Original: https://blog.csdn.net/qq_52878933/article/details/124158822
Author: uniqmintmoss
Title: [机器学习] 一文了解欠拟合与过拟合

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/696159/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球