(Note)优化器Adam的学习率设置

记录一下知乎看到的问题:Adam的学习率设置

常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应。

从统计的角度看,Adam的自适应原理也是根据统计对梯度进行修正,但依然离不开前面设置的学习率。如果学习率设置的过大,则会导致模型发散,造成收敛较慢或陷入局部最小值点,因为过大的学习率会在优化过程中跳过最优解或次优解。按照经验,一开始并不会设置过大的学习率,而是需要根据不同的任务进行选择。通常默认的学习率设置为1e-3。

同时神经网络的损失函数基本不是凸函数,而梯度下降法这些优化方法主要针对的是凸函数,所以在优化方面深度学习的学习率会设置的比传统机器学习小得多。如果学习率设置过高,Adam优化器只会矫正梯度,而不会影响设置的初始学习率,这时模型的Loss会出现较大的波动,这代表模型没有办法收敛。

即不同的task可以用一个相同的lr去调节,通用性更强;

即使按照paper里面的原理,lr可自动学习已无需调整,但是下降一次之后效能依然有大幅提升;

一般来说SGD在CV问题有两次lr下降,每一次的提升都较为可观,但是Adam在第一次的之后后续的影响微乎其微。这一点甚至在multi-scale的长周期训练中,Adam还不如SGD;

Reference:

https://www.zhihu.com/question/387050717

Original: https://blog.csdn.net/qq_40728667/article/details/125921684
Author: Think@
Title: (Note)优化器Adam的学习率设置

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/624586/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球