（Note）优化器Adam的学习率设置

2023年6月16日下午2:00 • 人工智能 • 阅读 80

记录一下知乎看到的问题：Adam的学习率设置

常用的神经网络优化器Adam的自适应学习率并不是真正意义上的自适应。

从统计的角度看，Adam的自适应原理也是根据统计对梯度进行修正，但依然离不开前面设置的学习率。如果学习率设置的过大，则会导致模型发散，造成收敛较慢或陷入局部最小值点，因为过大的学习率会在优化过程中跳过最优解或次优解。按照经验，一开始并不会设置过大的学习率，而是需要根据不同的任务进行选择。通常默认的学习率设置为1e-3。

同时神经网络的损失函数基本不是凸函数，而梯度下降法这些优化方法主要针对的是凸函数，所以在优化方面深度学习的学习率会设置的比传统机器学习小得多。如果学习率设置过高，Adam优化器只会矫正梯度，而不会影响设置的初始学习率，这时模型的Loss会出现较大的波动，这代表模型没有办法收敛。

即不同的task可以用一个相同的lr去调节，通用性更强；

即使按照paper里面的原理，lr可自动学习已无需调整，但是下降一次之后效能依然有大幅提升；

一般来说SGD在CV问题有两次lr下降，每一次的提升都较为可观，但是Adam在第一次的之后后续的影响微乎其微。这一点甚至在multi-scale的长周期训练中，Adam还不如SGD；

Reference：

https://www.zhihu.com/question/387050717

Original: https://blog.csdn.net/qq_40728667/article/details/125921684
Author: Think@
Title: （Note）优化器Adam的学习率设置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624586/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

tensorflow踩坑合集2. TF Serving & gRPC 踩坑

这一章我们借着之前的NER的模型聊聊tensorflow serving，以及gRPC调用要注意的点。以下代码为了方便理解做了简化，完整代码详见Github-ChineseNER …

人工智能 2023年6月4日
0088
sns.countplot() 画条形图

sns.countplot() 用于画类别特征的频数条形图。函数中的参数如图所示： sns.countplot(x=None, y=None, hue=None, data=No…

人工智能 2023年7月6日
0097
电影《海贼王：红发歌姬》观后感

上周，北京已经开始陆续解封了，电影院也可以进入了，只要持有48小时核算就行，于是去看了这部电影《海贼王：红发歌姬》，去看之前，看了预告片，讲述路飞小时候的玩伴乌塔，长大后开办世界级…

人工智能 2023年7月29日
0063
机器学习实战 — sklearn

随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文主要介绍机器学习的基础内容。对于一个初入机器学习的小白来说，数据是分析必不可少的。sklea…

人工智能 2023年7月1日
0065
动手学深度学习v2笔记-Day3-softmax回归

0x00 softmax回归 *回归和分类的区别差异类型回归分类输出值单个连续输出通常多个离散类别输出多个输入，多个输出输出i是预测为第i类的置信度softmax回归也是一种 …

人工智能 2023年6月18日
0078
计算机视觉中的编码-解码器结构总结（持续更新）

文章目录 NLP领域的编码解码器结构机器学习中的编码器 * 自动编码器视觉领域中的编码解码器结构编码器-解码器结构：编码器原始输入信号转化为中间格式，然后解码器将中间格式转化…

人工智能 2023年6月24日
00202
python dataframe索引为什么全是0_填补DataFrame多索引级别1中的空白，每个级别0都不同…

我有一个多索引数据帧，在级别1上有gappy日期值，如下所示：np.random.seed(456) j = [(a, b) for a in [‘A’,&…

人工智能 2023年7月7日
0048
Google Earth Engine（GEE）——NDVI时序线性插值补缺和导出视频结果案例分析（北京奥森公园为例）

本案例是一个综合案例：在NDVI时间序列上应用脚本使用OEEL库，在图像集上应用Savitzky-Golay滤波器。需要一个有规律的时间序列，没有任何遮挡的像素。所以这个脚本将…

人工智能 2023年6月20日
0080
R语言使用glm函数构建logistic回归模型，使用forestmodel包的forest_model函数可视化逻辑回归模型对应的森林图

R语言使用glm函数构建logistic回归模型，使用forestmodel包的forest_model函数可视化逻辑回归模型对应的森林图目录 R语言使用glm函数构建logis…

人工智能 2023年6月19日
0077
什么是卷积神经网络（CNN）

什么是卷积神经网络（CNN）？卷积神经网络（Convolutional Neural Network，简称CNN）是一种用于处理具有类似网格结构数据的深度学习模型。它广泛应用于计…

人工智能 2024年1月1日
0048
数字图像处理：（3）一阶微分算子在图像处理中的应用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月22日
0075
目标检测：RetinaNet算法细节以及代码部分

一、背景目标检测算法一般分为单阶段算法和多阶段算法。多阶段算法特点是：精度高，但速度慢。（Faster-RCNN）单阶段算法特点是：速度快，但精度不如前者。(SSD,Retina…

人工智能 2023年7月12日
0090
数据科学—使用Pandas进行操作数据

| 1.1 Pandas是什么？ Pandas是Python中最受欢迎的数据科学库之一。它使用起来很容易，它是基于 Numpy之上，并共享了许多功能和属性。使用 Pandas，您…

人工智能 2023年7月6日
0067
Spring Cloud:微服务基础知识

✨ Spring Cloud:微服务基础知识一、系统架构演变 * 1. 单体应用架构 2. 垂直应用架构 3. 分布式架构 4. SOA架构 – 4.1 SOA概念 …

人工智能 2023年7月31日
0058
【colab】谷歌colab免费服务器训练自己的模型，本文以yolov5为例介绍流程

目录一.前言二.准备工作 1.注册Google drive（谷歌云盘） Google Driver官网：https://drive.google.com/drive/ Cola…

人工智能 2023年6月25日
00126
Pandas实战-筛选DataFrame

本文将主要介绍以下内容：针对内存使用优化数据集按单一条件筛选按多个条件筛选其它筛选方法处理重复项在前面的文章中，我们练习了从DataFrame中选择单独的行，列和值。现…

人工智能 2023年7月8日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

（Note）优化器Adam的学习率设置

大家都在看