pytorch 之 optimizer.zero_grad()

2023年6月17日上午4:21 • 人工智能 • 阅读 58

一、功能

梯度初始化为零，把loss关于weight的导数变成0

二、为什么每一轮batch都需要设置optimizer.zero_grad

根据pytorch中的backward()函数的计算，当 网络参量进行反馈时，梯度是被积累的而不是被替换掉。

但是在每一个batch时毫无疑问并 不需要将两个batch的梯度混合起来累积，因此这里就需要每个batch设置一遍zero_grad。

三、每个batch必定执行的操作步骤

optimizer.zero_grad()
output = model(data)
loss = F.cross_entropy(output, target)
loss.backward()
optimizer.step()

三个函数的作用是先将梯度归零 optimizer.zero_grad()，然后反向传播计算得到每个参数的梯度值 loss.backward()，最后通过梯度下降执行一步参数更新 optimizer.step()

step()函数的作用是 执行一次优化步骤，通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的，所以在执行optimizer.step()函数前应先执行loss.backward()函数来计算梯度。

注意： optimizer只负责通过梯度下降进行优化，而不负责产生梯度， 梯度是tensor.backward()方法产生的。

四、优化器定义

SGD优化器

optimizer = torch.optim.SGD(model.parameters(), lr=0.001, momentum=0.9, weight_decay=1e-4)

param_groups

Optimizer类在实例化时会在构造函数中创建一个 param_groups列表，列表中有num_groups个长度为6的param_group字典（num_groups取决于你定义optimizer时传入了几组参数），每个param_group包含了 ['params', 'lr', 'momentum', 'dampening', 'weight_decay', 'nesterov'] 这6组键值对。

param_group[‘params’]

由传入的模型参数组成的列表，即实例化Optimizer类时传入该group的参数，如果参数没有分组，则为整个模型的参数 model.parameters() ，每个参数是一个torch.nn.parameter.Parameter对象 （没看懂）。


for param_group in optimizer.param_groups:
    param_group['lr'] = lr

代码实例

举例一

if (model.hyperparams['optimizer'] in [None, "adam"]):
    optimizer = optim.Adam(
        params,
        lr=model.hyperparams['learning_rate'],
        weight_decay=model.hyperparams['decay'],
    )
elif (model.hyperparams['optimizer'] == "sgd"):
    optimizer = optim.SGD(
        params,
        lr=model.hyperparams['learning_rate'],
        weight_decay=model.hyperparams['decay'],
        momentum=model.hyperparams['momentum'])
else:
    print("Unknown optimizer. Please choose between (adam, sgd).")

optimizer.zero_grad()
optimizer.step()

举例二：R-CenterNet

learning_rate = 1.25e-4

params=[]
params_dict = dict(model.named_parameters())
for key,value in params_dict.items():
    params += [{'params':[value],'lr':learning_rate}]

optimizer = torch.optim.Adam(params, lr=learning_rate, weight_decay=1e-4)

for epoch in range(num_epochs):
    model.train()
    if epoch == 90:
        learning_rate= learning_rate * 0.1
    if epoch == 120:
        learning_rate= learning_rate * (0.1 ** 2)
    for param_group in optimizer.param_groups:
        param_group['lr'] = learning_rate

Original: https://blog.csdn.net/lwqian102112/article/details/121554580
Author: 木槿qwer
Title: pytorch 之 optimizer.zero_grad()

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628472/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一维卷积神经网络原理,卷积神经网络原理简述

卷积神经网络通俗理解。卷积神经网络（ConvolutionalNeuralNetworks,CNN）是一类包含卷积计算且具有深度结构的前馈神经网络（FeedforwardNeu…

人工智能 2023年6月16日
0078
opencv打开图片显示全灰色

今天在调用opencv的时候遇到了一些问题：第一个问题就是下载问题：我在使用pip install opencv的时候老是报错，找了n个文章，发现我可能是版本有问题，于是最终找…

人工智能 2023年7月19日
0069
Pytorch学习笔记十六：正则化

一、weight decay（权值衰减）正则化（regularization）：减小方差的策略。那什么是方差呢？误差 = 偏差 + 方差 + 噪声偏差：度量了学习算法的期望预测…

人工智能 2023年6月17日
0077
第一章路径规划算法概述

第一章路径规划算法概述第一章路径规划算法概述文章目录第一章路径规划算法概述前言一、传统路径规划算法 * 1.1 Dijkstra算法 1.2 A*算法 1.3 D*…

人工智能 2023年6月15日
0084
Opencv实战——图像拼接

文章目录前言实现方法实现代码 * 直接拼接加权处理总结前言图像拼接(Image Stitching)是一种利用实景图像组成全景空间的技术，它将多幅图像拼接成一幅大尺度…

人工智能 2023年7月25日
00159
Pytorch训练神经网络完整步骤：搭建一个完整的神经网络（以用于Mnist手写数字识别的卷积神经网络为例）

搭建神经网络完整步骤一、搭建流程二、Mnist手写数字识别案例 * 1. 导入相关包：如torch、numpy、matplotlib等 2. 数据集准备 3. 搭建网络架构 4…

人工智能 2023年7月12日
0083
MongoDB安装教程

✅作者简介：大家好我是honker707,大家可以叫我honker，新星计划第三季python赛道Top1🥇🥇🥇📃个人主页：honker707的csdn博客🔥系列专栏：python…

人工智能 2023年7月29日
0066
目标检测中的边界框(x,y,w,h形式转换与绘制)

目标检测中的边界框(x,y,w,h形式转换与绘制) 之前做了个关于yolov4的目标检测项目, 对这个领域产生了兴趣, 决定系统的学习一下记录来源: 李沐老师: 动手学深度学习在线…

人工智能 2023年7月9日
0075
如何使用卡尔曼滤波（Kalman Filtering）实现对物体运动轨迹的预测？（附源码）

OpenCV杂谈_13 一. 什么是卡尔曼滤波？它的用途又是什么？以及它有什么拓展？卡尔曼滤波（Kalman filtering, KF）是一种利用线性系统状态方程，通过系统输…

人工智能 2023年7月28日
0085
Python语音合成-第三方库(gTTs/pyttsx3/speech)横评(内附使用代码)

Python文字转语音(调研&成品函数) 由于项目需要, 我需要将文字转换为语音, 那么第一步就要进行调研什么是语音合成技术? 语音合成（text to speech）…

人工智能 2023年5月27日
0081
线性回归——实验

一、实验要求在计算机上验证和测试最小二乘法和线性回归实验，sklearn的线性回归算法。二、实验目的1、掌握最小二乘法的原理2、能够理解线性回归和多元线性回归算法；3、掌握线性…

人工智能 2023年6月17日
0086
AlexNet网络结构详解（含各层维度大小计算过程）与PyTorch实现

AlexNet网络结构详解（含各层维度大小计算过程）与PyTorch实现 * – 1、AlexNet之前的思考 – 2、AlexNet网络结构 &#8211…

人工智能 2023年7月21日
0079
Qt中QThread安全退出方式总结

QThread的使用方式在Qt中，使用QThread实现子线程的方式有两种：继承QThread，重写run函数继承QObject，使用moveToThread方式移动进QThre…

人工智能 2023年6月27日
0073
逻辑回归（Logistic Regression）原理及其应用

目录第一章：逻辑回归的应用场景第二章：逻辑回归的原理 1.输入 2.Sigmoid函数 3.损失函数 4.优化损失采用梯度下降：第三章逻辑回归应用案例 1.数据集 2.具…

人工智能 2023年6月23日
0096
机器学习系列(9)_决策树详解01

注：本篇文章参考：1、机器学习的种类介绍2、机器学习两种方法——监督学习和无监督学习3、决策树回归文章目录一、种类介绍 * 1、监督学习 2、非监督学习 3、半监督学习 4、强…

人工智能 2023年7月17日
0058
嵌入式分享合集117

一、获取STM32代码运行时间的技巧测试代码的运行时间的两种方法：使用单片机内部定时器，在待测程序段的开始启动定时器，在待测程序段的结尾关闭定时器。为了测量的准确性，要进行多次…

人工智能 2023年7月29日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch 之 optimizer.zero_grad()

一、功能

二、为什么每一轮batch都需要设置optimizer.zero_grad

三、每个batch必定执行的操作步骤

四、优化器定义

大家都在看