深度学习时，训练集的精度与测试集精度之间的关系

2023年6月16日上午2:36 • 人工智能 • 阅读 68

训练精度 > 测试精度

当训练集和测试集两个loss 之间的有较大的差距时，定义为高方差；

根本原因在于两点：

训练集，测试集数据不同分布；
模型过拟合；

1.1 训练集，测试集数据分布不同

训练集和验证、测试集的数据分布不同。这个在于实验数据本身，可以尝试shuffle数据、重新划分数据集或者对实验数据进行扩充。

1.2 模型过拟合

模型过拟合。
表现为训练效果好,但是测试效果差，即模型的泛化能力差。

可以通过观察模型在训练集和测试集上的损失函数值随着epoch的变化，
如果是过拟合，模型在测试集上的损失函数值一般是先下降后上升。

1.3 过拟合的原因

训练数据太少，样本单一。
如果训练样本只有负样本，然后拿生成的模型去预测正样本，这肯定预测不准。
所以训练样本要尽可能的全面，覆盖所有的数据类型；
存在噪声。
噪声指训练数据中的干扰数据。过多的干扰会导致记录了很多噪声特征，忽略了真实输入和输出之间的关系；
模型过于复杂, 层数太深。
模型太复杂，已经能够死记硬背记录下了训练数据的信息，但是遇到没有见过的数据的时候不能够变通，泛化能力太差。我们希望模型对不同的数据都有稳定的输出。模型太复杂是过拟合的重要因素。

1.4 过拟合解决方式

增加样本，要覆盖全部的数据类型。
数据经过清洗之后再进行模型训练，防止噪声数据干扰模型；
降低模型复杂度。
在训练和建立模型的时候，从相对简单的模型开始，不要一开始就把特征做的非常多，模型参数挑的非常复杂；
正则化。在模型算法中添加惩罚函数来防止过拟合。常见的有L1，L2正则化。而且 L1正则还可以自动进行特征选择；
集成学习方法bagging(如随机森林）能有效防止过拟合；
减少特征个数(不是太推荐，但也是一种方法)。可以使用特征选择，减少特征数或使用较少的特征组合，对于按区间离散化的特征，增大划分的区间；
交叉检验，通过交叉检验得到较优的模型参数；
早停策略。本质上是交叉验证策略，选择合适的训练次数，避免训练的网络过度拟合训练数据；
DropOut策略。
Dropout指的是在用前向传播算法和反向传播算法训练DNN模型时，一批数据迭代时，随机的从全连接DNN网络中去掉一部分隐藏层的神经元。

在对训练集中的一批数据进行训练时，我们随机去掉一部分隐藏层的神经元，并用去掉隐藏层的神经元的网络来拟合我们的一批训练数据。由于dropout会将原始数据分批迭代，因此原始数据集最好较大，否则模型可能会欠拟合。

训练精度 < 测试精度

当训练集和测试集两个loss，虽然都是收敛，但是loss值都很高，定义为高偏差；

当偏差很高，训练集和验证集的准确率都很低，很可能是欠拟合；
表现为不能很好的拟合数据，训练集和测试集效果都不佳。

训练的时候，会得到测试集的准确率或者验证集的准确率高于训练集的准确率，这是什么原因造成的呢

本质上，因为: 模型没有很好的捕捉数据特征，不能很好地拟合数据

; 2.1 欠拟合的原因

数据集太小，且数据集切分的不均匀。
当训练集和测试集的分布不均匀，如果模型能够正确捕捉到数据内部的分布模式话，这可能造成训练集的内部方差大于验证集，会造成训练集的误差更大。

训练集的数据做了一系列的增广，如旋转，仿射，模糊，添加噪点等操作；过多的增广使得训练集分布产生了变化。

这时你要重新切分数据集或者扩充数据集，使其分布一样；

模型正则化过多，

比如训练时dropout较大，比如为0.5;
而验证时的模型不会有dropout。

Dropout迫使你的神经网络成为一个非常大的弱分类器集合，这就意味着，一个单独的分类器没有太高的分类准确性，只有当你把他们串在一起的时候他们才会变得更强大。它能基本上确保您的测试准确性最好，优于您的训练准确性。

因为在训练期间，Dropout将这些分类器的随机集合切掉，因此，训练准确率将受到影响
在测试期间，Dropout将自动关闭，并允许使用神经网络中的所有弱分类器，因此，测试精度提高

2.2 欠拟合的解决方式

做特征工程，添加更多的特征项，比如特征组合、高次特征，来增大假设空间。如果欠拟合是由于特征项不够，没有足够的信息支持模型做判断；
集成学习方法boosting（如GBDT）能有效解决high bias；
增加模型复杂度。如果模型太简单，不能够应对复杂的任务。可以使用更复杂的模型。比如说可以使用SVM的核函数，增加了模型复杂度，把低维不可分的数据映射到高维空间，就可以线性可分，减小欠拟合；
减小正则化系数。
测试集精度震荡

还有一种情况，训练集的进度稳步提升到１，但是测试集上的进度却是经常震荡；
测试集上验证精度的振荡可以归因于几个因素：

学习率：如果学习率太高，模型在优化过程中可能会采取过大的步骤，导致它过度追求最优解，从而导致精度的振荡。试着降低学习率。
批量大小：如果批次大小太小，模型可能在每一步都从你的数据的一个不太有代表性的样本中学习，导致更多的噪音和验证精度的波动。试着增加批量大小。
模型的复杂性：如果你的模型太复杂，它可能会对训练数据中的噪声进行过度拟合，导致验证精度的不稳定。试着简化你的模型或增加正则化。
数据问题：如果你的验证集不能代表你的训练集，模型可能会在它上面表现不一致。确保你的验证集能很好地代表你的训练集。
随机性：由于训练过程中固有的随机性，验证精度的一些波动是可以预期的。这包括初始权重的随机性、数据顺序的随机性以及优化过程本身的随机性。

请记住，验证精度的一些振荡是正常的，特别是在训练的早期。但是，如果震荡很大或者持续了很多个 epochs，这可能表明训练过程有问题。

小结

在深度学习训练过程中，如果训练集精度不上升，可能有以下原因：

学习率设置不当：学习率过低可能导致模型收敛速度过慢，训练精度难以提高；学习率过高可能导致模型无法收敛，训练精度波动。
模型复杂度不足：模型容量太小，无法很好地捕捉数据的特征，导致训练精度无法提高。
数据质量问题：数据可能存在错误标签、噪声，或者样本分布不均衡，导致训练精度无法提高。
优化算法问题：可能需要尝试其他优化算法，如Adam、RMSProp等，以改善训练过程中的收敛速度和效果。
模型初始化问题：模型参数的初始化方式可能影响训练过程。可以尝试使用不同的初始化策略，如Xavier或He初始化。
训练时间不足：训练时间可能不足以使模型收敛，可以尝试增加训练轮次或者训练时间。

当测试集精度大于训练精度时，可能存在以下原因：

训练集和测试集分布不一致：测试集的数据分布可能更简单，导致模型在测试集上的表现更好。
训练过程中使用了正则化技术，如Dropout、L1/L2正则化等，这些技术可能使训练精度受到限制，但有助于提高测试集精度。
训练集规模较小，模型可能无法充分学习数据特征，从而导致训练精度较低，但在测试集上表现较好。

随机性因素：模型训练和测试时的随机性可能导致测试集精度偶尔高于训练精度，但这种情况通常不会持续。

需要注意的是，测试集精度大于训练精度并不是一个普遍现象，需要仔细检查数据集的质量、模型的结构以及训练过程中的各种参数设置。

Original: https://blog.csdn.net/chumingqian/article/details/126626046
Author: mingqian_chu
Title: 深度学习时，训练集的精度与测试集精度之间的关系

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/619137/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

spark dataFrame withColumn

说明：withColumn用于在原有DF新增一列初始化sqlContext val sqlContext = new org.apache.spark.sql.SQLContex…

人工智能 2023年6月2日
0071
OpenCV [c++]（图像处理基础示例程序汇总）

目录一、图像读取与显示二、图像预处理[高斯滤波、canny边缘检测、膨胀腐蚀] Canny边缘检测三、图像裁剪四、绘制形状和添加文本五、透视投影变换矫正六、颜色检测七…

人工智能 2023年6月17日
0046
【nlp学习】浅谈实体识别

文章目录前言一、实体识别简介 * 1.实体识别 2.复杂情况下的实体识别二、几种标注方法 * 1.指针标注 2.多头标注 3.片段排列+分类三、数据层面的问题前言参考资…

人工智能 2023年5月27日
0066
深度盘点：30个用于深度学习、自然语言处理和计算机视觉的顶级 Python 库

今天我们来盘点一下有哪些用于深度学习、自然语言处理和计算机视觉的顶级Python库。我尽力将每个库按预期的使用情况进行归类，所有包含的库都有对应的Github代码仓库，我还列出每…

人工智能 2023年5月28日
0068
使用 Python为你的在线会议创建一个假的摄像头

想象一下。你正在参加在线会议，出于某种原因，你并不想打开摄像头。但是如果你看到其他人都打开了，你觉得你也得打开，所以迅速整理自己的头发，确保衣着整洁，然后不情愿地打开相机。我们都经…

人工智能 2023年6月25日
0070
【Python量化】VaR在险价值的计算

此文章首发于微信公众号：Python for Finance 链接：https://mp.weixin.qq.com/s/uaDEnSzoalTaRmZ9GNvR0A 假设有一投资…

人工智能 2023年7月27日
0047
pytorch——实现自编码器和变分自编码器

文章目录数据降维 * 主成分分析（PCA）自编码器（AE）变分自编码器（VAE） pytorch实现 * AE – 实现自编码器网络结构实现AE对MNIST数据…

人工智能 2023年7月23日
0062
python机器学习：决策树详解

文章目录一、决策树工作原理 * 1.1 定义 1.2 决策树结构 1.3 核心问题二、sklearn库中的决策树 * 2.1 模块sklearn.tree 2.2 sklear…

人工智能 2023年6月16日
00159
多元回归是一种回归算法，用于预测多个相关输出变量之间的关系。它将多个输入特征与多个输出变量之间的关系建模为多元线性方程

详细解决多元回归问题介绍多元回归是一种回归算法，用于预测多个相关输出变量之间的关系。它将多个输入特征与多个输出变量之间的关系建模为多元线性方程的问题。算法原理多元回归基于线…

人工智能 2023年12月31日
0030
labelImg和labelme的区别、安装和基本使用

文章目录 labelImg和labelme的区别 * labelImg labelme 区别 CV的四大基本任务 labelImg的安装和使用 * labelImg的安装——Win…

人工智能 2023年6月17日
0098
Flink 数据交换策略 Partitioner

传送门：Flink 系统性学习笔记任务之间的数据交换策略决定了数据会分发到下游算子的哪个实例上，在 Flink 中有八种不同的策略，也称为分区器： GlobalPartition…

人工智能 2023年6月27日
0066
华为云数据转发与分析

文章目录华为云数据转发与分析 * 前言一、数据转发 – 1.1 创建对象存储 1.2 设置设备转发规则二、数据分析 – 2.1 配置数据源 2.2 创…

人工智能 2023年7月16日
0096
Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

人工智能 2023年7月13日
0052
R语言数据拆分

大家好✨，这里是bio🦖。先赞后看养成习惯，还没关注的小伙伴点点关注不迷路。今天是南方的小年，祝福大家小年快乐。今天继续学习R语言，我们之前已经介绍过了数据合并（R语言合并数据框…

人工智能 2023年6月15日
00101
视觉机器学习20讲-MATLAB源码示例（7）-EM算法

视觉机器学习20讲-MATLAB源码示例（7）-EM算法 1. EM算法 2. Matlab仿真 3. 仿真结果 4. 小结 ; 1. EM算法最大期望算法（Expectatio…

人工智能 2023年6月16日
0071
[PyTorch] 加载部分模型权重

在实际使用中，我们通常希望有一个预训练模型帮助加速训练，如果使用原生的模型，直接使用加载即可。但我们经常会根据不同的任务要求进行backbone的修改，此时直接加载预训练模型就会出…

人工智能 2023年7月13日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31