模型训练中——模型不收敛或训练失败的原因

2023年7月13日上午7:58 • 人工智能 • 阅读 180

训练过程中模型不收敛，应该怎么做，原因有哪些？

分以下几步走：
(1)要保证训练的次数够多，若训练次数够多没收敛，则进行(2)
(2)考虑采取措施解决
数据分类标注是否准确？数据是否干净？
不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果，为了消除指标之间的量纲影响，需要进行数据标准化处理，以解决数据指标之间的可比性。
大部分神经网络流程都假设输入输出是在0附近的分布，从权值初始化到激活函数、从训练到训练网络的优化算法。将数据减去均值并除去方差。
看下training set上的loss收敛了吗？如果只是 validate set上不收敛那就说明overfitting了，这时候就要考虑各种anti-overfit的trick了，比如dropout，SGD，增大minibatch的数量，减少fc层的节点数量，momentum，finetune等。
问题：当你开始训练你的网络几个 epoch 后，发现误差在减小了。这表示成功训练网络了吗？很不幸这并不是，这说明你的代码中很可能还有一些问题，可能是在数据预处理、训练代码或者推理部分有问题。仅仅因为误差在减小并不意味着你的网络正在学习有用的信息。
原因：与传统的编程不同，在机器学习中可能会存在一些除变成语法以外的问题，这些问题是很隐晦的，所以我们应该非常小心检查的通过人眼来观察每个阶段的处理过程，这样当一个错误已经产生的时候，我们可以及时发现并且可以更彻底的检查代码。
解决办法：在管道的每个阶段检查数据是否正确是非常重要的。通常这意味着找到一些方法使结果形象化。如果你有图像数据，那么很容易，动画数据也可以可视化，没有太多的麻烦。
如果你有一些更奇特的东西，必须找到一种方法来检查它，以确保它在预处理、训练和推理管道的每个阶段看起来都是正确的，并将其与地面真实数据进行比较。
有许多方法可以检查你的网络是否正常工作。其中一部分是找出报告的训练错误的真正含义。可视化应用于训练集数据的输出结果，可以观察到网络的输出结果和真实标签的对比
在训练的时候，可能会看到误差从 1.0 到 0.01，但如果 0.01仍然是一个不可接受的结果，那么输出结果仍可能无法使用。如果它在训练集上是有用的，那请在验证集上检查它，看看它仍然适用于以前从未见过的数据吗？
建议： 从一开始就习惯于可视化一切，不要只在网络不收敛的时候才开始，并且确保在开始尝试不同的神经网络结构之前，已经准备了通完最终用户的完整管道，并一路进行完整的检查。这是准确评估许多潜在不同方法的唯一方法。
如果做很复杂的分类任务，却只用了很浅的网络，可能会导致训练难以收敛。应当选择合适的网络，或者尝试加深当前网络。
注意：网络不是越深越好，开始可以搭建一个3~8层的网络，当这个网络实现的不错时，你可以考虑实验更深的网络来提升精确度。
应从小网络开始训练意味着更快，并且可以设置不同参数观察对网络的影响而不是简单的堆叠更多层。
在自己训练新网络时，可以从0.1开始尝试，如果loss不下降的意思，那就降低，除以10，用0.01尝试，一般来说0.01会收敛，不行的话就用0.001. 学习率设置过大，很容易震荡。
注意：刚刚开始不建议把学习率设置过小，尤其是在训练的开始阶段。在开始阶段我们不能把学习率设置的太低否则loss不会收敛。可逐渐尝试，从0.1,0.08,0.06,0.05 …逐渐减小直到正常为止。
新手典型问题：learning rate设大了会带来跑飞（loss突然一直很大）的问题。这个是新手最常见的情况——为啥网络跑着跑着看着要收敛了结果突然飞了呢？可能性最大的原因是你用了relu作为激活函数的同时使用了softmax或者带有exp的函数做分类层的loss函数。当某一次训练传到最后一层的时候，某一节点激活过度（比如100），那么exp(100)=Inf，发生溢出，bp后所有的weight会变成NAN，然后从此之后weight就会一直保持NAN，于是loss就飞起来辣。
解决：随便挑一个层的weights看一看，很有可能都是NAN了。此时可使用二分法尝试。0.1~0.0001。不同模型不同任务最优的lr都不一样。
在一些情况下使用过多或过少的神经元数量都会使得网络很难训练。太少的神经元数量没有能力来表达任务，而太多的神经元数量会导致训练缓慢，并且网络很难清除一些噪声。
解决方法：隐层神经元数量可以从256 到1024中间开始设置，然后可以看看研究人员使用的数字，可以用作参考。如果他们使用的数字与这个大不相同，那么可以想象一下这其中的原理。在决定使用隐层的单元数量之前，最为关键的是考虑你需要通过这个网络表达信息的实际值的最少数量，然后再慢慢增加这个数字。
具体任务：如果你做回归任务可以考虑使用的神经元数量为输入或输出变量的2到3倍。
与其他因素相比：隐藏单元的数量通常对于神经网络的性能影响相当小。并且在很多情况下，增大所需要隐藏单元的数量仅仅是减慢了训练速度。
如果没有正确初始化网络权重，那么网络将不能训练。通常使用的比较多的初始化权重的方法有’he’,’lecun’,’xavier’在实际应用中这些方法有非常好的性能而网络偏差通常初始化为0，你可以选择一个最适合你任务的初始化方式。
正则化典型的就是dropout、加噪声等。即使数据量很大或者你觉得网络不可能出现过拟合，但是对网络进行正则化还是很有必要的。
最好加上：dropout 通常从设定参数为0.75或0.9开始，根据你认为网络出现过拟合的可能性来调整这个参数。另外，如果你确定这个网络不会出现过拟合，那么可以将参数设定为0.99。正则化不仅仅可以防止过拟合，并且在这个随机过程中，能够加快训练速度以及帮助处理数据中的异常值并防止网络的极端权重配置。
对数据扩增也能够实现正则化的效果，最好的避免过拟合的方法就是有大量的训练数据。
Batch size 设置的过大会降低网络的准确度，因为它降低了梯度下降的随机性。
另外，在相同情况下batch size 越大，要达到相同的精确度通常需要训练更多的epoch。
我们可以尝试一些较小的batch size 如 16 ，8 甚至是1。使用较小的batch size 那么一个epoch就可以进行更多次的权值更新。
这里有两个好处，第一，可以跳出局部最小点。其二可以表现出更好的泛化性能。
许多深度学习的框架默认开启了gradient clipping ,这个可以处理gradient explosion问题，这个是非常有用的，但是在默认情况下它也很难找到最佳学习率。
如果你正确的清理了数据，删除了异常值，以及设定了正确的学习率，那么可以不需要使用gradient clipping，偶尔你也会遇到gradient explosion问题，那么你可以开启gradient clipping。
但是， 出现这种问题一般情况下表明数据有其它问题，而gradient clipping只是一个临时的解决方案。
在最后一层使用错误的激活函数会导致网络最终不能输出你期望的范围值，最常见的错误就是最后一层使用Relu函数，其输出无负值。
如果是做回归任务，大多数情况下不需要使用激活函数，除非你知道你所期望的值作为输出。
想象一下你的数据值实际代表了什么，以及再归一化之后它们的范围是多少，最有可能的情况是输出没有边界的正数和负数。在这种情况下，最后一层不应该使用激活函数。
如果你的输出值只能在某个范围内有意义，如0~1范围内的概率组成。那么最后一层可以使用sigmoid函数。
如果你训练了几个epoch误差没有改变,那可能是你使用了Relu，可以尝试将激活函数换成leaky Relu。
因为Relu激活函数对正值的梯度为1，负值的梯度为0。
因此会出现某些网络权值的成本函数的斜率为0，在这种情况下我们说网络是”dead”,因为网络已经不能更新。

如何通过train loss与test loss分析网络当下的状况？

train loss 不断下降，test loss不断下降，说明网络仍在学习;

train loss 不断下降，test loss趋于不变，说明网络过拟合;

train loss 趋于不变，test loss不断下降，说明数据集100%有问题;

train loss 趋于不变，test loss趋于不变，说明学习遇到瓶颈，需要减小学习率或批量数目;

train loss 不断上升，test loss不断上升，说明网络结构设计不当，训练超参数设置不当，数据集经过清洗等问题。

参考：https://zhuanlan.zhihu.com/p/285601835
参考：https://zhuanlan.zhihu.com/p/369716572

Original: https://blog.csdn.net/weixin_44737266/article/details/118883234
Author: 哆啦A梦！！！
Title: 模型训练中——模型不收敛或训练失败的原因

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/689397/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

三维目标检测之OpenPCDet环境配置及demo测试

很久没写过关于环境配置的博客了，这次实在是因为，自己在是在OpenPCDet环境的配置上遇到坑了。一环扣一环，由于我的实验环境是ubuntu16.04，跟网上大多数教程环境不一样，…

人工智能 2023年6月1日
00220
AKGE：面向个性化推荐的注意力知识图谱嵌入

核心问题：基于路径的方法通过从知识库中提取线性路径来建立用户-物品连接的模型，因此不能充分利用知识库丰富的语义和拓扑结构。基于传播的方法迭代地将用户偏好传播到整个kg中，这不可…

人工智能 2023年6月10日
00139
人工智能导论（第四版）王万良编著课后习题答案

第一章思考题 1.1什么是人类智能？它有哪些特点？答：智能可以理解为知识与智力的总和。其中，知识是一切智能行为的基础，而智力是获取知识并运用知识求解问题的能力，即在任意给定的环境…

人工智能 2023年7月26日
00235
极智Paper | YOLOS 通过目标检测重新思考Vision Transformer

欢迎关注我的公&#…

人工智能 2023年7月12日
00203
时间序列工具库学习（2） AutoTS模块

1.AutoTS基础知识 AutoTS 是 Python 的时间序列包，旨在快速部署大规模的高精度预测。 https://winedarksea.github.io/AutoTS/…

人工智能 2023年6月19日
00166
AMD显卡驱动升级：《帝国时代4》性能暴涨45％，玩家热情再回归！

《帝国时代》与《星际争霸》、《魔兽争霸》和《红色警戒》共同开启了RTS的黄金时代，并在游戏史上留下了浓墨重彩的一笔。虽然RTS已经成为了时代的眼泪，但是他们的辉煌也成为了我和众多R…

人工智能 2023年6月18日
00138
【python pandas groupby】

pandas groupby 数据聚合与分组 GroupBy 四种分组键 * DataFrame列名的值可以将分组轴向上的值和分组名称相匹配的字典或者Series –…

人工智能 2023年7月8日
00130
R语言-假设检验

目录假设检验 * – 假设检验的原理 1. 提出假设 2. 做出决策 3. 表述结果 4. 效应量 1.总体均值的检验 * 1.1 一个总体均值的检验 –…

人工智能 2023年7月15日
00131
sklearn Kmeans

Kmeans Kmeans属于无监督学习对输入样本不断地迭代计算出最佳质心步骤1、随机选定k个样本作为质心2、开始循环2.1、将各个样本点分配到离它们最近的质心，生成k个簇2…

人工智能 2023年6月2日
00192
【OpenCV 例程200篇】203. 伪彩色图像处理

OpenCV 例程200篇总目录201. 图像的颜色空间转换202. 查表快速替换（cv.LUT）203. 伪彩色图像处理204. 图像的色彩风格滤镜205. 调节色彩平衡/饱和…

人工智能 2023年6月19日
00151
使用PyTorch复现ConvNext：从Resnet到ConvNext的完整步骤详解

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-QzSpL26A-1652067254818)(http://images.overfit.cn/up…

人工智能 2023年5月26日
00176
逻辑斯谛回归总结

一、逻辑斯谛回归用于解决什么问题？逻辑斯谛回归是经典分类方法，用于解决分类问题。二项逻辑斯谛回归可以解决二分类问题。逻辑回归假设数据服从伯努利分布，通过极大化似然函数的方法，运用…

人工智能 2023年6月17日
00137
OpenCV、cv、cv2的区别？

Officially, OpenCV releases two types of Python interfaces, cv and cv2. I started working …

人工智能 2023年7月18日
00171
【TensorFlow 2.0】使用 tensorflow.keras 进行线性回归

import pandas as pd import numpy as np import matplotlib.pyplot as plt import tensorflow a…

人工智能 2023年5月24日
00181
头歌Python数据框、序列定义及数据处理应用实验闯关

粘贴答案不是目的把Python学会这才叫做意义童年的纸飞机现在终于飞回我手里~~ 这是网站给的答案，不过运行报错，其他关卡应该没问题。 def return_values()…

人工智能 2023年7月6日
00178
Adult数据集分析及四种模型实现

文章目录一、数据集 * 数据集介绍数据集预处理及分析二、四种模型对上述数据集进行预测 * 深度学习决策树支持向量机随机森林三、结果分析一、数据集数据集下载：htt…

人工智能 2023年7月21日
00151

2024 年 7 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

模型训练中——模型不收敛或训练失败的原因

训练过程中模型不收敛，应该怎么做，原因有哪些？

大家都在看