torch.optim.SGD参数学习率lr、动量momentum、权重衰减weight_decay的解析

2023年7月21日上午8:06 • 人工智能 • 阅读 145

torch.optim.SGD(net.parameters(), lr=lr, momentum=0.9,weight_decay=wd)

第一个参数包括权重w，和偏置b等是神经网络中的参数，也是SGD优化的重点

第二个参数lr是学习率。sgd中的学习率lr的作用可以理解为： p ′ = p − l r ∗ d p p^{‘} = p – lr*dp p ′=p −l r ∗d p 其中p就是模型中的参数比如：权重(w), 偏置(b)。 d p dp d p 就是对p的一阶求导， lr 即学习率， p ′ p^{‘}p ′ 为p的另一种形式，即用来替换上一次的p

第三个参数momentum是冲量

“冲量”这个概念源自于物理中的力学，表示力对时间的积累效应。
在普通的梯度下降法x+=v
中，每次x的更新量v为v=−dx∗lr，其中dx为目标函数func(x)对x的一阶导数，。
当使用冲量时，则把每次x的更新量v考虑为本次的梯度下降量−dx∗lr与上次x的更新量v乘上一个介于[0,1][0,1]的因子momentum的和，即
v ′ = − d x ∗ l r + v ∗ m o m e m t u m v^{‘}=−dx∗lr+v∗momemtum v ′=−d x ∗l r +v ∗m o m e m t u m
当本次梯度下降- dx * lr的方向与上次更新量v的方向相同时，上次的更新量能够对本次的搜索起到一个正向加速的作用。
当本次梯度下降- dx * lr的方向与上次更新量v的方向相反时，上次的更新量能够对本次的搜索起到一个减速的作用。

第四个参数weight_decay是权重衰减即L2正则化前面的那个 λ \lambda λ 参数，权重衰减的使用既不是为了提高你所说的收敛精确度也不是为了提高收敛速度，其最终目的是防止过拟合。在损失函数中，weight decay是放在正则项（regularization）前面的一个系数，正则项一般指示模型的复杂度，所以weight decay的作用是调节模型复杂度对损失函数的影响，若weight decay很大，则复杂的模型损失函数的值也就大。

另外可点击参考此链接

Original: https://blog.csdn.net/jjw_zyfx/article/details/120421836
Author: jjw_zyfx
Title: torch.optim.SGD参数学习率lr、动量momentum、权重衰减weight_decay的解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706655/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch实战教学（一篇管够）

参考B站视频使用更佳：《PyTorch深度学习实践》完结合集个人博客：https://tianjuewudi.gitee.io/如果代码有格式不对的地方请参考原文：https://…

人工智能 2023年6月15日
0094
机器学习之分类与回归的常见评价指标

在人工智能领域，机器学习的模型及效果如何需要用各种指标来评价。本文将简单介绍几种机器学习中无监督学习的常用评价指标。无监督学习主要分为两类：分类问题与回归问题。分类问题又分为二分…

人工智能 2023年6月30日
0069
在 DataFrame 多列数据中模糊查找匹配数据

import pandas as pd df = pd.DataFrame(data = [[True, False, False, False], [False, True, F…

人工智能 2023年7月8日
00110
人工智能基础知识

📢博客主页：盾山狂热粉的博客_CSDN博客-C、C++语言,机器视觉领域博主 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ 📢努力努力再努力嗷~~~✨ 💡本次给大家分享的是…

人工智能 2023年6月25日
0067
NLP实验环境安装

安装anaconda 下载网址：https://www.anaconda.com/products/individual#windows 注意事项：（1）在选择安装类型的时候根据…

人工智能 2023年5月27日
0088
tensor中数据类型的相互转换

Pytorch中的Tensor常用的类型转换函数 tensor数据类型转换例如： a = tensor(282, device=’cuda:0′) b =…

人工智能 2023年7月5日
00103
人脸识别示例代码解析（二）——人脸识别解析

上一篇我们初步分析了下示例代码facedetector的程序参数解析部分。其中参数解析的过程如下：其中第4步黄色标注的部分cascadeName,是我们人脸识别分类器的主要参数。…

人工智能 2023年5月26日
00116
np.arange()和np.linspace()绘制logistic回归图像时得到不同的结果？

1.公式 logistic回归函数的公式： logistic回归函数的导数公式： σ'(x) = σ(x) * ( 1 – σ(x) ) 2.np.arange()函数…

人工智能 2023年6月17日
00157
【论文笔记】Knowledge-Driven Encode, Retrieve, Paraphrase for Medical Image Report Generation (AAAI 2019)

论文原文：https://arxiv.org/pdf/1903.10122.pdf Abstract Knowledge-driven Encode, Retrieve, Para…

人工智能 2023年5月28日
0080
【tph-yolov5】论文简读

论文名称： TPH-YOLOv5: Improved YOLOv5 Based on Transformer Prediction Head for Object Detectio…

人工智能 2023年7月28日
0063
【人工智能实验】A*算法求解8数码问题

目录实验一 A*算法求解8数码问题一、实验目的二、实验原理三、实验结果四、实验总结附录代码推荐文章实验一 A*算法求解8数码问题一、实验目的熟悉和掌握启发式搜索…

人工智能 2023年7月25日
00109
Kettle下载与安装教程【保姆版】

### 回答1： Kettle_是一款开源的 _ETL_工具，可以用于数据抽取、转换和加载。在Linux系统上安装和配置 _Kettle，可以按照以下步骤进行： 1. 下载 Ket…

人工智能 2023年7月14日
0071
[大数据]数据可视化 — 练习卷（上）

一、填空题 1 ．反映发展趋势的可视化图表有 _____ ______ 、 _____ _ 和 ____ ___ 。 2 ． ____ _ ______ 是指发现并纠正数据文件中可…

人工智能 2023年7月18日
00137
JavaScript 2022 最新面试题【前端面试题】

1.对象属性绑定的事件，取消 <script> _btn.onclick = function() {} _btn.onclick = null </script…

人工智能 2023年7月31日
0067
声艺si16路数字调音台说明书_调音台主要功能有哪些

调音台实际上是一个音频信号混音处理控制台，也被称为调音台，它是专业音频系统的控制中心，是一种多输入、多输出的调谐控制设备。 [En] The mixer is actually a…

人工智能 2023年5月27日
00169
Pandas

一、Pandas的数据结构分析 Pandas的两个主要的数据结构：Series和DataFrame (1)Series是一个类似一维数组的对象，它能够保存任何类型的数据，主要由一组…

人工智能 2023年7月17日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

torch.optim.SGD参数学习率lr、动量momentum、权重衰减weight_decay的解析

大家都在看