我们真的需要把训练集的损失降到零吗？

2023年9月29日下午7:21 • Python • 阅读 69

在训练模型的时候，我们需要将损失函数一直训练到0吗？显然不用。一般来说，我们是用训练集来训练模型，但希望的是验证机的损失越小越好，而正常来说训练集的损失降到一定值后，验证集的损失就会开始上升，因此没必要把训练集的损失降低到0

既然如此，在已经达到了某个阈值之后，我们可不可以做点别的事情来提升模型性能呢？ICML2020的论文《Do We Need Zero Training Loss After Achieving Zero Training Error?》回答了这个问题，不过实际上它并没有很好的描述”为什么”，而只是提出了”怎么做”

思路描述

论文提供的解决方案非常简单，假设原来的损失函数是L ( θ ) \mathcal{L}(\theta)L (θ)，现在改为L ~ ( θ ) \tilde{\mathcal{L}}(\theta)L ~(θ)：
L ~ ( θ ) = ∣ L ( θ ) − b ∣ + b (1) \tilde{\mathcal{L}}(\theta)=|\mathcal{L}(\theta)-b|+b\tag{1}L ~(θ)=∣L (θ)−b ∣+b (1 )
其中b b b是预先设定的阈值。当L ( θ ) > b \mathcal{L}(\theta)>b L (θ)>b时L ~ ( θ ) = L ( θ ) \tilde{\mathcal{L}}(\theta)=\mathcal{L}(\theta)L ~(θ)=L (θ)，这时就是执行普通的梯度下降；而L ( θ ) < b \mathcal{L}(\theta)时L ~ ( θ ) = 2 b − L ( θ ) \tilde{\mathcal{L}}(\theta)=2b-\mathcal{L}(\theta)L ~(θ)=2 b −L (θ)，注意到损失函数变号了，所以这时候是梯度上升。因此，总的来说就是以b b b为阈值，低于阈值时反而希望损失函数变大。论文把这个改动称为“Flooding”

这样做有什么效果呢？论文显示，在某些任务中，训练集的损失函数经过这样处理后，验证集的损失能出现”二次下降（Double Descent）”，如下图

左图：不加Flooding的训练示意图；右图：加了Flooding的训练示意图

简单来说，就是最终的验证集效果可能更好一些，原论文的实验结果如下：

Flooding的实验结果：第一行W表示是否使用weight decay，第二行E表示是否使用early stop，第三行的F表示是否使用Flooding

; 个人分析

如何解释这个方法呢？可以想像，当损失函数达到b b b之后，训练流程大概就是在交替执行梯度下降和梯度上升。直观想的话，感觉一步上升一步下降，似乎刚好抵消了。事实真的如此吗？我们来算一下看看。假设先下降一步后上升一步，学习率为ε \varepsilon ε，那么：
θ n = θ n − 1 − ε g ( θ n − 1 ) θ n + 1 = θ n + ε g ( θ n ) (2) \begin{aligned}&\theta_n = \theta_{n-1} – \varepsilon g(\theta_{n-1})\ &\theta_{n+1} = \theta_n + \varepsilon g(\theta_n) \end{aligned}\tag{2}θn =θn −1 −εg (θn −1 )θn +1 =θn +εg (θn )(2 )
其中g ( θ ) = ∇ θ L ( θ ) g(\theta)=\nabla_{\theta}\mathcal{L}(\theta)g (θ)=∇θL (θ)，现在我们有
θ n + 1 = θ n − 1 − ε g ( θ n − 1 ) + ε g ( θ n − 1 − ε g ( θ n − 1 ) ) ≈ θ n − 1 − ε g ( θ n − 1 ) + ε ( g ( θ n − 1 ) − ε ∇ θ g ( θ n − 1 ) g ( θ n − 1 ) ) = θ n − 1 − ε 2 2 ∇ θ ∥ g ( θ n − 1 ) ∥ 2 (3) \begin{aligned}\theta_{n+1} =&\, \theta_{n-1} – \varepsilon g(\theta_{n-1}) + \varepsilon g\big(\theta_{n-1} – \varepsilon g(\theta_{n-1})\big)\ \approx&\,\theta_{n-1} – \varepsilon g(\theta_{n-1}) + \varepsilon \big(g(\theta_{n-1}) – \varepsilon \nabla_{\theta} g(\theta_{n-1}) g(\theta_{n-1})\big)\ =&\,\theta_{n-1} – \frac{\varepsilon^2}{2}\nabla_{\theta}\Vert g(\theta_{n-1})\Vert^2 \end{aligned}\tag{3}θn +1 =≈=θn −1 −εg (θn −1 )+εg (θn −1 −εg (θn −1 ))θn −1 −εg (θn −1 )+ε(g (θn −1 )−ε∇θg (θn −1 )g (θn −1 ))θn −1 −2 ε2 ∇θ∥g (θn −1 )∥2 (3 )

近似那一步实际上是使用了泰勒展开，我们将θ n − 1 \theta_{n-1}θn −1 看作x x x，ε g ( θ n − 1 ) \varepsilon g(\theta_{n-1})εg (θn −1 )看作Δ x \Delta x Δx，由于
g ( x − Δ x ) − g ( x ) − Δ x = ∇ x g ( x ) \frac{g(x – \Delta x) – g(x)}{-\Delta x} = \nabla_x g(x)−Δx g (x −Δx )−g (x )=∇x g (x )
所以
g ( x − Δ x ) = g ( x ) − Δ x ∇ x g ( x ) g(x – \Delta x) = g(x) – \Delta x \nabla_x g(x)g (x −Δx )=g (x )−Δx ∇x g (x )

最终的结果就是相当于学习率为ε 2 2 \frac{\varepsilon^2}{2}2 ε2 、损失函数为梯度惩罚∥ g ( θ ) ∥ 2 = ∥ ∇ θ L ( θ ) ∥ 2 \Vert g(\theta)\Vert^2 = \Vert \nabla_{\theta} \mathcal{L}(\theta)\Vert^2 ∥g (θ)∥2 =∥∇θL (θ)∥2的梯度下降。更妙的是，改为”先上升再下降”，其表达式依然是一样的（这不禁让我想起”先涨价10%再降价10%”和”先降价10%再涨价10%的故事”）。因此，平均而言，Flooding对损失函数的改动，相当于在保证了损失函数足够小之后去最小化∥ ∇ x L ( θ ) ∥ 2 \Vert \nabla_x \mathcal{L}(\theta)\Vert^2 ∥∇x L (θ)∥2，也就是推动参数往更平稳的区域走，这通常能提高泛化性（更好地抵抗扰动），因此一定程度上就能解释Flooding有作用的原因了

本质上来讲，这跟往参数里边加入随机扰动、对抗训练等也没什么差别，只不过这里是保证了损失足够小后再加扰动

继续脑洞

想要使用Flooding非常简单，只需要在原有代码基础上增加一行即可

logits = model(x)
loss = criterion(logits, y)
loss = (loss - b).abs() + b
optimizer.zero_grad()
loss.backward()
optimizer.step()

有心是用这个方法的读者可能会纠结于b b b的选择，原论文说b b b的选择是一个暴力迭代的过程，需要多次尝试

The flood level is chosen from b ∈ { 0 , 0.01 , 0.02 , . . . , 0.50 } b\in {0, 0.01,0.02,…,0.50}b ∈{0 ,0 .0 1 ,0 .0 2 ,…,0 .5 0 }

不过笔者倒是有另外一个脑洞：b b b无非就是决定什么时候开始交替训练罢了，那如果我们从一开始就用不同的学习率进行交替训练呢？也就是自始自终都执行
θ n = θ n − 1 − ε 1 g ( θ n − 1 ) θ n + 1 = θ n + ε 2 g ( θ n ) (4) \begin{aligned}&\theta_n = \theta_{n-1} – \varepsilon_1 g(\theta_{n-1})\ &\theta_{n+1} = \theta_n + \varepsilon_2 g(\theta_n) \end{aligned}\tag{4}θn =θn −1 −ε1 g (θn −1 )θn +1 =θn +ε2 g (θn )(4 )
其中ε 1 > ε 2 \varepsilon_1 > \varepsilon_2 ε1 >ε2 ，这样我们就把b b b去掉了（引入了ε 1 , ε 2 \varepsilon_1, \varepsilon_2 ε1 ,ε2 的选择，天下没有免费的午餐）。重复上述近似展开，我们就得到
θ n + 1 = θ n − 1 − ε 1 g ( θ n − 1 ) + ε 2 g ( θ n − 1 − ε 1 g ( θ n − 1 ) ) ≈ θ n − 1 − ε 1 g ( θ n − 1 ) + ε 2 ( g ( θ n − 1 ) − ε 1 ∇ θ g ( θ n − 1 ) g ( θ n − 1 ) ) = θ n − 1 − ( ε 1 − ε 2 ) g ( θ n − 1 ) − ε 1 ε 2 2 ∇ θ ∥ g ( θ n − 1 ) ∥ 2 = θ n − 1 − ( ε 1 − ε 2 ) ∇ θ [ L ( θ n − 1 ) + ε 1 ε 2 2 ( ε 1 − ε 2 ) ∥ ∇ θ L ( θ n − 1 ) ∥ 2 ] (5) \begin{aligned} \theta_{n+1} =& \, \theta_{n-1} – \varepsilon_1g(\theta_{n-1})+\varepsilon_2g(\theta_{n-1} – \varepsilon_1g(\theta_{n-1}))\ \approx&\, \theta_{n-1} – \varepsilon_1g(\theta_{n-1}) + \varepsilon_2(g(\theta_{n-1}) – \varepsilon_1\nabla_\theta g(\theta_{n-1})g(\theta_{n-1}))\ =&\, \theta_{n-1} – (\varepsilon_1 – \varepsilon_2) g(\theta_{n-1}) – \frac{\varepsilon_1\varepsilon_2}{2}\nabla_{\theta}\Vert g(\theta_{n-1})\Vert^2\ =&\,\theta_{n-1} – (\varepsilon_1 – \varepsilon_2)\nabla_{\theta}\left[\mathcal{L}(\theta_{n-1}) + \frac{\varepsilon_1\varepsilon_2}{2(\varepsilon_1 – \varepsilon_2)}\Vert \nabla_{\theta}\mathcal{L}(\theta_{n-1})\Vert^2\right] \end{aligned}\tag{5}θn +1 =≈==θn −1 −ε1 g (θn −1 )+ε2 g (θn −1 −ε1 g (θn −1 ))θn −1 −ε1 g (θn −1 )+ε2 (g (θn −1 )−ε1 ∇θg (θn −1 )g (θn −1 ))θn −1 −(ε1 −ε2 )g (θn −1 )−2 ε1 ε2 ∇θ∥g (θn −1 )∥2 θn −1 −(ε1 −ε2 )∇θ[L (θn −1 )+2 (ε1 −ε2 )ε1 ε2 ∥∇θL (θn −1 )∥2 ](5 )
这就相当于自始自终都在用学习率ε 1 − ε 2 \varepsilon_1-\varepsilon_2 ε1 −ε2 来优化损失函数L ( θ ) + ε 1 ε 2 2 ( ε 1 − ε 2 ) ∥ ∇ θ L ( θ ) ∥ 2 \mathcal{L}(\theta) + \frac{\varepsilon_1\varepsilon_2}{2(\varepsilon_1 – \varepsilon_2)}\Vert\nabla_{\theta}\mathcal{L}(\theta)\Vert^2 L (θ)+2 (ε1 −ε2 )ε1 ε2 ∥∇θL (θ)∥2了，也就是说一开始就把梯度惩罚给加了进去，这样能提升模型的泛化性能吗？《Backstitch: Counteracting Finite-sample Bias via Negative Steps》里边指出这种做法在语音识别上是有效的，请读者自行测试甄别

效果检验

我随便在网上找了个竞赛，然后利用别人提供的以BERT为baseline的代码，对Flooding的效果进行了测试，下图分别是没有做Flooding和参数b = 0.7 b=0.7 b =0 .7的Flooding损失值变化图，值得一提的是，没有做Flooding的验证集最低损失值为0.814198，而做了Flooding的验证集最低损失值为0.809810

根据知乎文章一行代码发一篇ICML？底下用户Curry评论所言：”通常来说b b b值需要设置成比’Validation Error开始上升’的值更小，1/2处甚至更小，结果更优”，所以我仔细观察了下没有加Flooding模型损失值变化图，大概在loss为0.75到1.0左右的时候开始出现过拟合现象，因此我又分别设置了b = 0.4 b=0.4 b =0 .4和b = 0.5 b=0.5 b =0 .5，做了两次Flooding实验，结果如下图

值得一提的是，b = 0.4 b=0.4 b =0 .4和b = 0.5 b=0.5 b =0 .5时，验证集上的损失值最低仅为0.809958和 0.796819，而且很明显验证集损失的整体上升趋势更加缓慢。接下来我做了一个实验，主要是验证”继续脑洞”部分以不同的学习率一开始就交替着做梯度下降和梯度上升的效果，其中，梯度下降的学习率我设为1 e − 5 1e-5 1 e −5，梯度上升的学习率为1 e − 6 1e-6 1 e −6，结果如下图，验证集的损失最低仅有 0.783370

; References

Original: https://blog.csdn.net/qq_37236745/article/details/128133158
Author: 数学家是我理想
Title: 我们真的需要把训练集的损失降到零吗？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/787421/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

葡萄干数据集

原文： Raisin Dataset Data Set Images of the Kecimen and Besni raisin varieties were obtained…

Python 2023年10月8日
0047
networkx绘制度分布

networkx绘制度分布 d = nx.degree(g1) print("网络的度分布为:{}".format(d)) d = nx.degree(g1) …

Python 2023年8月27日
0065
数据挖掘之numpy学习（二）

1.1.8 ndarray运算统计运算统计指标函数：min , max , mean , medium , var , std 其中可以使用axis=0或者1来表示求行或者列的…

Python 2023年8月27日
0051
解决： ModuleNotFoundError: No module named ‘MySQLdb‘

** 情况如下： **出现：ModuleNotFoundError: No module named ‘MySQLdb’简单介绍我出现此问题的原因：首先我…

Python 2023年8月9日
0058
topy库的安装（拓扑优化软件）

本人的py27文件夹放到了网盘，可以直接下载下来然后直接创建环境变量链接：https://pan.baidu.com/s/13aj58_VDdYxyRxuwGxRUoA提取码：k3…

Python 2023年8月28日
0045
MySQL必知必会笔记——查询的基础知识

查询基础知识第七章数据过滤组合where子句 MySQL允许给出多个WHERE子句。这些子句可以两种方式使用：以AND子句的方式或OR子句的方式使用。 AND操作符可使用…

Python 2023年6月9日
0039
Python3+flask+sqlalchemy分页查询

Flask是Python3开发平台的小型框架，是DJango框架的轻量版，所谓的轻量，并不是说Flask功能没有DJango强大，而是为了提供用户开发过程中更大的灵活空间，缩减了很…

Python 2023年8月13日
0052
未来教育考试系统4.0启动不了(解决)

最近9月不是有个全国计算机等级考试嘛，我就报名了个二级C语言程序设计，在某宝上订了一本相关教材，商家顺带配送了个这篇文章的主角儿”未来教育考试系统”的程序。…

Python 2023年6月12日
00471
高斯核原理详解+生成高斯核的Python代码

要搞清楚高斯核的原理的话，把下面这篇博文认认真真看一遍就可以了，链接如下：https://blog.csdn.net/u013066730/article/details/1231…

Python 2023年8月2日
0043
【面试总结】接口自动化面试

博客园：当前访问的博文已被密码保护请输入阅读密码: Original: https://www.cnblogs.com/upstudy/p/16712673.htmlAutho…

Python 2023年6月15日
0062
pytest_mysql_pytest介绍、安装及如何自动识别测试用例

pytest:基于unittest之上的单元测试框架,其特征有: 1、自动识别测试用例和测试方法(unittest当中，需要引入TestSuite，主动加载测试用例) 2、简单的断…

Python 2023年9月13日
0046
面试官：断网了，还能 ping 通 127.0.0.1 吗？

你女神爱不爱你，你问她，她可能不会告诉你。 ‍ 但网通不通，你 ping 一下就知道了。可能看到标题，你就知道答案了，但是你了解背后的原因吗？那如果把 127.0.0.1 …

Python 2023年9月26日
0045
Pandas使用unstack()行转列时报错：Index contains duplicate entries, cannot reshape

stack()即”堆叠”，作用是将列旋转到行unstack()即stack()的反操作，将行旋转到列 unstack(): Series对象的API，用于将…

Python 2023年8月17日
0036
python是什么？工作前景如何？怎么算有基础？爬数据违法嘛？。。

Original: https://www.cnblogs.com/jnjnj/p/16226419.htmlAuthor: python茜Title: python是什么？工作前…

Python 2023年5月24日
0077
激活conda虚拟环境后，无法调用虚拟环境中的python版本（或无法调用当前虚拟环境的包）

今天使用conda创建了一个新环境（python3.8），命名为wj： (base) [root@cqu-3 ~] base * /root/anaconda3 tyh /root…

Python 2023年9月8日
0067
『航班乘客满意度』场景数据分析建模与业务归因解释 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

Python 2023年10月27日
0063

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31