神经网络深度学习（三）优化器

2023年6月16日上午12:47 • 人工智能 • 阅读 106

一、优化器分类

基本梯度下降法：包括标准梯度下降法(GD, Gradient Descent)，随机梯度下降法(SGD, Stochastic Gradient Descent)及批量梯度下降法(BGD, Batch Gradient Descent)；

动量优化法：包括标准动量优化方法（MomentumOptimizer)、牛顿加速梯度动量优化方法(NAG, Nesterov accelerated gradient)等；

Momentum（历史梯度乘以一个权重）-> Nesterov（向前看一步梯度)

自适应学习率优化法：包括Adagrad(Adaptive gradient algorithm)算法，RMSProp(root mean square prop)算法，Adam算法等；

Adagrad（首次引入二阶动量) -> adadelta （只关注过去一段时间）->RMSProp（修改AdaGrad的梯度积累为一阶指数加权的移动平均）

融合优化法：

adam: adagrad + momentum
nadam：Adam+Nesterov

二、优化器详解

优化器

基本原理

优点

缺点

适用场景

pytorch函数参数（参数含义见pytorch优化器函数）

SGD

SGD更新公式：Wt+1=Wt−ηtgt其中ηt表示学习率，gt表示单个样本的梯度，训练时只从训练样本集中随机选取一个样本进行梯度下降；而标准梯度下降法GD是每次使用所有样本更新梯度；批量梯度下降法BGD是介于GD和SGD之间，每次通过一小批样本更新梯度。

1.每次只选择一个样本进行求导，当训练样本集很大时，计算速度比GD快很多，内存开销小很多；

2.具有随机性，能够跳出一些比较差的局部最优点；

1.每步接受信息量有限，对梯度估计容易产生偏差，在山谷和鞍点处梯度下降速度很慢；

2.单样本梯度更新时会引入许多噪声；

SGD在比如SSD或者faster-rcnn等目标检测模型，每个样本都有大量候选框参与训练，这时使用随机梯度下降法能够加快梯度的计算。通常我们采用得更多的是BGD。

class torch.optim.SGD(params, lr=, momentum=0, dampening=0, weight_decay=0, nesterov=False)

MomentumOptimizer

标准动量优化方法，核心思想就是，使当前训练数据的梯度受到之前训练数据的梯度的影响，对之前的梯度乘以一个权重项成为了动量项。能够减少梯度的波动，加快收敛。

1.通过动量更新，参数向量会在有持续梯度的方向上增加速度；

2.使梯度下降时的折返情况减轻，从而加快训练速度；

如果数据集分类复杂，会导致 Vt-1 和 t时刻梯度向量方向相差较大；在进行向量求和时，得到的 Vt 会非常小，反而使训练速度大大下降甚至模型难以收敛。

适合用于改进在随机梯度下降和批量梯度下降等方法中梯度出现折返等情况，以加速收敛。

通过在torch.optim.SGD()函数中设置参数momentum和dampening以实现。

NAG

(Nesterov)

牛顿加速梯度动量优化方法，和标准动量优化方法不同的点在于会超前一个动量单位，相当于对于Momentum多了一个本次梯度相对上次梯度的变化量，以”向前看”看到的梯度而不是当前位置梯度去更新。

1.如果多次梯度累计方向大致相同，标准动量优化方法中会导致最终下降步幅过大；而NAG可以有效利用损失函数的近似二阶导，从而加快收敛速度。

不能根据参数的重要性而对不同的参数进行不同程度的更新。

是对标准Momentum方法对改进，可以使得RNN在很多任务上有更好的表现。

通过在torch.optim.SGD()函数中设置参数nesterov以实现。

LBFGS

L-BFGS算法，较少使用。

torch.optim.LBFGS(params, lr=1, max_iter=20, max_eval=None, tolerance_grad=1e-05, tolerance_change=1e-09, history_size=100, line_search_fn=None)

ASGD

实现平均随机梯度下降算法。在第k步迭代的时候，考虑这一步和前面n-1个梯度的平均值，当前权重减去步长乘以最近n个梯度的平均值。n是自己设置的，当n=1的时候，就是普通的sgd。

1.和SGD相当，收敛速度快了很多，计算成本小于BGD。

1.和Momentum的原理比较接近，但实现上不如后者简单高效，因此应用也较少。

能够加速SGD的收敛

torch.optim.ASGD(params, lr=0.01, lambd=0.0001, alpha=0.75, t0=1000000.0, weight_decay=0)

Adamax

Adam的一种基于无穷范数的变种，可参考Adamax优化器

torch.optim.Adamax(params, lr=0.002, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

Adagrad

AdaGrad的核心思想是，缩放每个参数反比于其所有梯度历史平均值总和的平方根。具有代价函数最大梯度的参数相应地有较大的学习率，而具有小梯度的参数有较小的学习率。式中，i表示第i个分类，t表示第t迭代同时也表示分类i累计出现的次数。η0表示初始的学习率取值（一般为0.01）。

1.AdaGrad算法能够随着训练过程自动减小学习率；

2.对于分布稀疏或者不均衡的数据集，AdaGrad算法在学习率上有很好的适应性；

1.仍依赖于人工设置一个全局学习率；

2.随着迭代次数增多，分母上梯度平方的累加将会越来越大，学习率会越来越小，最终会趋近于0，使得训练提前结束。

能够根据参数的重要性而对不同的参数进行不同程度的更新的问题。适合处理稀疏梯度。

torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0)

RMSprop

RMSProp算法修改了AdaGrad的梯度积累为一阶指数加权的移动平均。

1.解决Adagrad分母会不断积累，这样学习率就会收缩并最终会变得非常小的问题。

1.RMSprop依然依赖于全局学习率；

RMSprop算是Adagrad的发展和Adadelta的变体，效果趋于二者之间。适合处理非平稳目标，对于RNN效果很好

torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

Rprop

Rprop和RMSprop

和RMSprop比较类似，RMSprop是对Rprop的改进，较少使用

torch.optim.Rprop(params, lr=0.01, etas=(0.5, 1.2), step_sizes=(1e-06, 50))

AdaDelta

1.AdaDelta算法额外维护一个状态变量Delta(x)，并使用状态变量的均方根代替 RMSprop 中的学习率参数，使AdaDelta优化器不需要指定超参数。

1.训练后期容易反复在局部极小值震荡。

相比于RMSprop算法，可以不用指定全局学习率超参数。

torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

这里的lr=1.0表示在delta被应用到参数更新之前对它缩放的系数。

Adam

Adma吸收了Adagrad（自适应学习率的梯度下降算法）和动量梯度下降算法Momentum的优点，既能适应稀疏梯度（即自然语言和计算机视觉问题），又能缓解梯度震荡的问题。

1.计算高效；

2.梯度平滑、稳定的过渡，可以适应不稳定的目标函数；

3.调参相对简单，默认参数就可以处理绝大部分的问题。

4.能自然地实现步长退火过程（自动调整学习率）

5.超参数具有很好的解释性，且通常无需调整或仅需很少的微调

1.可能不收敛；

2.可能错过全局最优解。

很适合应用于大规模的数据及参数的场景；

适用于不稳定目标函数；

适用于梯度稀疏或梯度存在很大噪声的问题；

torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0)

NAdam

Adam+Nesterov

2.学习率的选取

学习率控制了每次更新模型参数需要用到多少误差，学习率过大过小都不合适，会有如下优缺点：

学习率大

学习率小

学习速度

快

慢

使用时间点

刚开始训练时

一定轮次过后

缺点

造成梯度爆炸
损失值来回振荡
收敛速度慢
容易过拟合，容易陷入局部最优

三、优化器常见问题

2 Adam vs Adagrad adam vs rmsprop

1 Adam vs Adagrad adam vs rmsprop

2 adam 改进

Original: https://blog.csdn.net/china1000/article/details/126678915
Author: china1000
Title: 神经网络深度学习（三）优化器

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618570/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ROS2放弃指南3：webots简单使用

webots与ros 简介安装简单使用 * DEF-USE Mechanism（定义机制）制作小车导出节点如何入门webots机器人仿真神器 · 罗伯特祥. 古月居罗伯…

人工智能 2023年6月10日
0096
windows10上conda安装pytorch+transformers

conda create -n myPytorch python=3.7 CUDA 11.3 conda install pytorch torchvision torchaudi…

人工智能 2023年7月22日
0054
关于汽车领域的知识图谱实战入门

根据https://www.bilibili.com/video/BV1iv411k7qG整理 01实体识别基于nlp的g3语言去抽取实体对象和基于关系抽取的情境下，用到命名实体…

人工智能 2023年6月1日
0073
论文阅读笔记：Neural Belief Tracker: Data-Driven Dialogue State Tracking

提示：阅读论文时进行相关思想、结构、优缺点，内容进行提炼和记录，论文和相关引用会标明出处。文章目录前言 Abstract Introduction Background Neu…

人工智能 2023年6月10日
0089
分类问题为什么用交叉熵损失不用 MSE 损失

本文说明以下问题 MSE 损失主要适用与回归问题，因为优化 MSE 等价于对高斯分布模型做极大似然估计，而简单回归中做服从高斯分布的假设是比较合理的交叉熵损失主要适用于多分类问题…

人工智能 2023年7月1日
00112
2021SC@SDUSC山东大学软件学院软件工程应用与实践–YOLOV5代码分析（十六）yolo.py-1

2021SC@SDUSC 目录前言 parse_model函数 Detect类 init方法 forward make_grid方法总结前言由于分配任务改动，我增加了一篇y…

人工智能 2023年7月12日
0063
课程作业——基于数据挖掘算法和技术指标预测股票涨跌

导入数据 import pandas as pd data = pd.read_csv(‘D:/QQ文件夹/金发科技数据十年.csv’) data.head…

人工智能 2023年7月17日
0068
图像压缩小波变换原理

图像编码算法尽可能节省图像的存储空间和减少传输带宽需求，图像编码的目的是在满足一定解码重构质量的条件下利用尽可能少的比特数对图像进行表示。数字图像中的像素都不是独立存在的，小到相邻…

人工智能 2023年6月22日
0089
（萌新向很详细！）在Anaconda下安装Pytorch环境流程及问题总结

（萌新向很详细！）Anaconda下安装Pytorch环境流程及问题总结目录前言一、Anaconda是什么？Pytorch是什么？ Anaconda是什么？ Pytorch是…

人工智能 2023年6月13日
0073
【优化调度】基于matlab遗传算法求解公交车调度排班优化问题【含Matlab源码 2212期】

⛄ 一、遗传算法简介 1 引言公交排班问题是城市公交调度的核心内容,是公交调度人员、司乘人员进行工作以及公交车辆正常运行的基本依据。行车时刻表是按照线路的当前客流量情况,确定发车…

人工智能 2023年6月26日
0081
Stimulsoft Reports 2023.1.1 Crack 根据自身需求选择

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月30日
0046
周志华《机器学习》习题4.4——python实现基于信息熵进行划分选择的决策树算法

1.题目试编程实现基于信息熵进行话饭选择的决策树算法，并为表4.3中数据生成一棵决策树。表4.3如下：青绿,蜷缩,浊响,清晰,凹陷,硬滑,0.697,0.460,是乌黑,蜷缩,…

人工智能 2023年6月16日
0085
opencv-python3 | cv2.findContours()检测图像中物体轮廓

cv2.findContours检测物体轮廓什么是物体轮廓 cv2.findContours cv2.drawContours 代码示例什么是物体轮廓轮廓可以简单地理解为连接…

人工智能 2023年6月19日
0099
机器学习-多元分类/回归决策树模型(tree包)

决策树(Decision Tree)：Tree-Based方法用于多元数据的分类和回归。决策树点是再现了人类做决策的过程，树可以图形化显示，很容易解释。但是树的分类和回归准确度比不…

人工智能 2023年6月30日
0096
Rescal 和 Distmult，知识图谱嵌入（KGE）论文阅读

主要思想：三维张量分解参考：双线性模型（一）（RESCAL、LFM、DistMult）知识图谱嵌入(KGE)：方法和应用的综述张量是多维数组，其中零阶张量是标量（scalar）…

人工智能 2023年6月1日
0086
Python中pandas合并DataFramepd.merge()方法

选择题以下关于pd.merge()方法说法错误的是? A 若缺省how参数：用内连接的方式合并B 若缺省how参数：用外连接的方式合并C how=left：用左连接的方式合并D h…

人工智能 2023年7月7日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

神经网络深度学习（三）优化器

大家都在看