部分梯度下降算法简述

2023年6月6日下午2:08 • 人工智能 • 阅读 63

梯度下降算法是通过沿着目标函数 J(θ) 的梯度(一阶导数)相反方向来不断更新模型参数来到达目标函数的极小值点（收敛），学习率为η。当目标函数具有多个参数，则使用相应的偏导

[若目标函数为 J(\Theta)且\Theta = (\theta_1, \theta_2, …, \theta_i),则第j个参数的梯度为\ \frac{\partial J(\Theta)}{\partial \theta_j} ]

在 pytorch 中可使用以下代码选择梯度下降算法

import torch
TODO
其中，model 为前面的网络模型实例，Adam 为梯度下降算法，可以替换为其他方法
optimizer = torch.optim.Adam(model.parameters(), lr=1e-3)
----------------------------------------------------------------------
optimizer.zero_grad()   # 清空之前的梯度，避免累加梯度
optimizer.step()        # 更新参数

批量梯度下降(BGD)

每次使用 全部的训练样本来更新参数，当训练集过大时，该算法会变得十分缓慢。其优点在于每次更新都会朝着正确的方向进行，最后能够 保证收敛于极值点(凸函数收敛于全局极值点，非凸函数可能会收敛于局部极值点)，但是其缺点在于每次学习时间过长，不能进行在线模型参数更新，如果训练集很大则需要消耗大量的内存。其参数更新如下

[\theta = \theta – \eta\cdot \nabla_\theta J(\theta) ]

随机梯度下降(SGD)

每次从训练集中 随机选取一个样本来更新参数，其训练速度较快，且能较快到达”最优点”附近，如果不设置迭代次数，SGD会不停游走于该点附近。SGD 最大的缺点在于每次更新可能并不会按照正确的方向进行，因此可以 带来优化波动。不过从另一个方面来看，对于类似盆地区域这个波动可能会使优化的方向从当前的局部极小值点跳到另一个更好的局部极小值点，从而可能使非凸函数收敛于一个较好的局部极值点，甚至全局极值点。其参数更新如下

[\theta = \theta – \eta\cdot \nabla_\theta J(\theta;x_i;y_i) ]

小批量梯度下降(MBGD)

MBGD 综合了 BGD 与 SGD 的优点，在每次更新速度与更新次数中间取得一个平衡，其每次更新从训练集中 随机选择 m 个样本进行学习，从而更新参数。对于 SGD，MBGD 降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定；相对于 BGD，其提高了每次学习的速度。其参数更新如下

[\theta = \theta – \eta\cdot\nabla_\theta J(\theta;x_{i:i+m};y_{i:i+m}) ]

上面三种梯度下降算法均存在一个超参数 η，而选择一个合理的学习速率很难。如果学习速率过小，则会导致收敛速度很慢；如果学习速率过大，可能会难以收敛，导致训练失败
学习率在训练过程中适当调整可能会更好。一开始选择较大的学习率，加快收敛速度；后期调整为一个较小的学习率，使提高收敛精度
对于非凸目标函数，容易陷入 critical points 中

Momentum

SGD 方法中的 高方差振荡使得网络很难稳定收敛，所以有研究者提出了一种称为动量（Momentum）的技术，通过优化相关方向的训练和 弱化无关方向的振荡。算法主要思想为计算梯度的 指数加权平均，然后使用这个梯度来更新权重

[v_t = \gamma v_{t-1}+\eta\nabla_\theta J(\theta)\ \theta = \theta – v_t\ or——————————–or\ v_t = \beta v_{t-1}+(1-\beta)\nabla_\theta J(\theta)\ \theta = \theta – \alpha v_t\ ]

注：其中动量项超参数 (\gamma、\beta)，一般等于 0.9

NAG

NAG不仅增加了动量项，并且在计算参数的梯度时，在损失函数中减去了动量项，这种方式预估了下一次参数所在的位置，每次学习过程中能够根据损失函数的斜率做到自适应更新来加速 SGD 的收敛

[\begin{aligned} &v_t = \gamma v_{t-1} + \eta\cdot\nabla_\theta J(\theta – \gamma v_{t-1})\ &\theta = \theta – v_t \end{aligned} ]

Adagrad

Adagrad 能够对每个参数自适应不同的学习速率，对稀疏特征，得到大的学习更新，对非稀疏特征，得到较小的学习更新，因此该优化算法适合处理稀疏特征数据。在前述中，每个模型参数使用相同的学习速率，而 Adagrad 在每一个更新步骤中对于每一个模型参数使用不同的学习速率

[\begin{aligned} &设第 t 次更新步骤中，目标函数的参数 \theta_i 梯度为 g_{t,i}，即：g_{t, i} = \nabla_\theta J(\theta_i)\ &那么 SGD 更新方程为：\theta_{t+1, i} = \theta_{t, i} – \eta\cdot g_{t, i}\ &而 Adagrad 对每一个参数使用不同的学习速率，其更新方程为：\theta_{t+1, i} = \theta_{t, i} – \frac{\eta}{\sqrt{G_{t, ii} + \epsilon}}\ &其中， G_t∈R^{d×d}是一个对角矩阵，其中第 i行的对角元素e_{ii}为过去到当前第i个参数θ_i的梯度的平方和\ &\epsilon是一个平滑参数，为了使得分母不为0(通常 ϵ=1e−8)，另外如果分母不开根号，算法性可能会很糟糕。\ &进一步，将所有 G_{t,ii},g_{t,i} 的元素写成向量 G_t,g_t，这样便可以使用向量点乘操作：\ &\theta_{t+1} = \theta_t – \frac{\eta}{\sqrt{G_t + \epsilon}}\bigodot g_t \quad or \quad \theta_{t+1} = \theta_t – \frac{\eta}{\sqrt{\sum_1^tg_t^2 + \epsilon}}\bigodot g_t \end{aligned} ]

注：Adagrad 主要优势在于它能够为每个参数自适应不同的学习速率，而一般的人工都是设定为 0.01。同时其缺点在于需要计算参数梯度序列平方和，随之时间地增加，分母项越来越大，最终导致学习率太小而无法进行有效更新

Adadelta

Adadelta 是 Adagrad 的一种扩展，为了降低 Adagrad 中学习速率衰减过快问题，其改进了三处：1、使用了窗口 w； 2、是对于参数梯度历史窗口序列(不包括当前)不再使用平方和，而是使用均值代替； 3、是最终的均值是历史窗口序列均值与当前梯度的时间衰减加权平均

[\begin{aligned} &记 RMS[g]t = \sqrt{\frac{\sum_1^tg_t^2+\epsilon}{t}}，表示梯度的均方根误差,用 RMS[\Deltaθ]{t−1}代替学习率 \eta\ &则得到 Adadelta 更新规则：\Delta\theta_t = -\frac{RMS[\Delta\theta]{t-1}}{RMS[g]_t}g_t \qquad \theta{t+1} = \theta_t+\Delta\theta_t \end{aligned} ]

RMSprop

均方根传递(Root Mean Square prop)，其实 RMSprop 是 Adadelta 的中间形式，也是为了降低Adagrad中学习速率衰减过快问题，其参数更新如下

[\begin{aligned} &E[g^2]t = \gamma E[g^2]{t-1} + (1-\gamma)g_t^2\ &\theta_{t+1} = \theta_t – \frac{\eta}{\sqrt{E[g^2]_t+\epsilon}}\bigodot g_t \end{aligned} ]

Adam

Adaptive Moment Estimation(Adam) 也是一种不同参数自适应不同学习速率方法，与 Adadelta 与 RMSprop 区别在于，它计算历史梯度衰减方式不同，不使用历史平方衰减，其衰减方式类似动量，如下：

[\begin{aligned} &m_t = \beta_1m_{t-1} + (1-\beta_1)g_t \qquad v_t = \beta_2v_{t-1} + (1 – \beta_2)g_t^2\ &m_t与 v_t分别是梯度的带权平均和带权有偏方差，初始为0向量，Adam的作者发现他们倾向于 0 向量，特别是在衰减因子β_1, β_2接近于1时。\ &为了改进这个问题，对 m_t与 v_t进行偏差修正(bias-corrected)：\quad \hat{m_t} = \frac{m_t}{1-\beta_1^t}\quad \hat{v_t} = \frac{v_t}{1 – \beta_2^t}\ &最终，Adam的更新方程为：\quad \theta_{t+1} = \theta_t – \frac{\eta}{\sqrt{\hat{v_t}} + \epsilon}\hat{m_t} \end{aligned} ]

Original: https://www.cnblogs.com/lemonyam/p/15723664.html
Author: 贵志
Title: 部分梯度下降算法简述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576593/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python多维数据聚类_文末又送书！K-means算法实现二维数据聚类

首先导入必要的模块： import kmeans import numpy as np import matplotlib.pyplot as plt from math impo…

人工智能 2023年6月2日
00116
FCN网络解析

1 FCN网络介绍 FCN（Fully Convolutional Networks，全卷积网络）用于图像语义分割，它是首个端对端的针对像素级预测的全卷积网络，自从该网络提出后，…

人工智能 2023年6月16日
0075
数据增广albumentations用法 -借例 hw3 食物分类-

previous work：开启第三个作业食物分类，有的人找不到数据集地址放一个：ml2021spring-hw3 | Kaggle 前言：这个作业每类带标签的数据…

人工智能 2023年7月2日
0090
BP神经网络应用——数字验证码识别

摘要神经网络从上世纪40年代被提出至今，得到了不断的补充和发展。后向传播学习的前馈型神经网络（BPNN）作为人工神经网络的一个经典模型，应用最为广泛。验证码是网络上普遍采用的一…

人工智能 2023年6月21日
0095
【python pip特殊用法】pip install -v -e . 命令详解

目录前言分析结论后记前言之前在使用包括大型文档（商汤科技、百度飞浆）代码的时候都一直使用pip install -v -e . ，这一命令，但是一直不是很清楚它到底是&…

人工智能 2023年7月4日
0075
吴恩达对话刘慈欣：让科幻更有勇气，让人工智能更有想象力

机器学习强基计划聚焦深度和广度，加深对机器学习模型的理解与应用。”深”在详细推导算法模型背后的数学原理；”广”在分析多个机器学习模型…

人工智能 2023年6月23日
0077
tensorflow安装步骤（CPU版本，Anaconda环境下，Windows10）

本文主要讲述了在Anaconda环境下，CPU版本tensorflow2.3.0的安装步骤，Windows10系统中Anaconda的安装步骤可以阅读此篇博客：Anaconda安装…

人工智能 2023年6月22日
0085
质量评估指标：SSIM（Structural similarity 结构相似性）

文章目录一、结构相似性二、定义三、应用四、SSIM源码一、结构相似性 SSIM 是一种基于感知的模型，它将图像退化视为结构信息的感知变化，同时还结合了重要的感知现象，如亮…

人工智能 2023年6月17日
0080
卷积神经网络参数量和计算量的计算

卷积神经网络参数量和计算量的计算 提示：据说是&…

人工智能 2023年7月13日
0069
GeForce RTX 3060 + CUDA Toolkit + cuDNN + TensorFlow + PyTorch + Keras

https://www.nvidia.cn/geforce/drivers/ —— GeForce、GeForce RTX 30 series (Notebooks)、GeForc…

人工智能 2023年5月25日
0099
净重新分类指数NRI的计算

本文首发于公众号：医学和生信笔记 ” 医学和生信笔记，专注R语言在临床医学中的使用，R语言数据分析和可视化。主要分享R语言做医学统计学、meta分析、网络药理学、临床…

人工智能 2023年6月30日
0098
pandas pd.read_excel ()

pd.read_excel () 首先，认识一下pd.read_excel（），函数的官方文档是这么说的：将Excel文件读取到pandas DataFrame中，支持本地文件系…

人工智能 2023年7月8日
00101
LPC2478（22）IAP在线升级

目录 1、开发环境 2、特性 3、IAR编译器的相关文件 3.1、icf文件 3.2、IcfEditorFile文件内容 3.3、ddf文件 3.4、board文件 4、IAP相关…

人工智能 2023年6月29日
0085
windows下运行一个DCGAN项目-DCGAN-tensorflow

DCGAN-tensorflow * – 一.配置虚拟环境 – 二.准备数据集 – 三.开始训练 – 四.推理测试 – …

人工智能 2023年5月24日
0073
世界各国当日数据探索性分析

2.2 读取世界各国当日数据 import chardet import pandas as pd 查看文&amp…

人工智能 2023年6月16日
0097
【深度学习】语义分割：论文阅读：(CVPR 2022) MPViT（CNN+Transformer）：用于密集预测的多路径视觉Transformer

这里写目录标题 0详情 1摘要 2 主要工作 3 网络结构 * 3.1 Conv-stem 3.2 Multi-Scale Patch Embedding 3.3 Multi-pa…

人工智能 2023年6月17日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31