PYTORCH: 60分钟 | TORCH.AUTOGRAD

2023年6月16日上午6:48 • Linux • 阅读 164

torch.autograd 是PyTorch的自动微分引擎，用以推动神经网络训练。在本节，你将会对autograd如何帮助神经网络训练的概念有所理解。

背景

神经网络（NNs）是在输入数据上执行的嵌套函数的集合。这些函数由参数（权重、偏置）定义，并在PyTorch中保存于tensors中。

训练NN需要两个步骤：

前向传播：在前向传播中（forward prop），神经网络作出关于正确输出的最佳预测。它使输入数据经过每一个函数来作出预测。
反向传播：在反向传播中（backprop），神经网络根据其预测中的误差来调整其参数，它通过从输出向后遍历，收集关于函数参数的误差的导数（梯度），并使用梯度下降优化参数。有关更多关于反向传播的细节，参见video from 3Blue1Brownvideo from 3Blue1Brown。

在PyTorch中的使用

让我们来看一下单个训练步骤。对于这个例子，我们从 torchvision 加载了一个预训练的resnet18模型。我们创建了一个随机数据tensor，用以表示一个3通道图片，其高和宽均为64，而其对应的 label 初始化为某一随机值。

import torch, torchvision
model = torchvision.models.resnet18(pretrained=True)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

接下来，我们将数据输入模型，经过模型的每一层最后作出预测。这是 前向过程。

prediction = model(data) # forward pass

我们使用模型的预测及其对应的标签计算误差（ loss）。下一步是通过网络反向传播误差。当在误差tensor上调用 .backward()时，反向传播开始。然后，Autograd计算针对每一个模型参数的梯度，并将其保存在参数的 .grad 属性中。

loss = (prediction - labels).sum()
loss.backward() # backward pass

接下来，我们加载一个优化器，在此案例中是SGD，学习率是0.01，动量参数（momentum）是0.9。我们在优化器中注册所有的模型参数。

optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

最后，我们调用 .step()启动梯度下降。优化器会通过保存在 .grad 的参数梯度调整所有参数。

optim.step() # gradient descent

此时，你已拥有训练神经网络所需的一切。以下部分详细介绍了autograd的工作原理 – 可随意跳过。

Autograd中的微分

让我们来看一下 autograd是如何收集梯度的。创建两个tensor a 和 b，并且 requires_grad=True。这向 autograd 发出信号，跟踪在它们上执行的每一个操作。

import torch
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)

由 a 和 b 创建tensor Q。

[Q = 3a^2 – b^2 ]

Q = 3*a**2 - b**2

假设 a 和 b 是一个神经网络的参数， Q 是误差。在NN训练中，求解关于参数的梯度，即：

[\frac{\partial Q}{\partial a} = 6a ]

[\frac{\partial Q}{\partial b} = -2b ]

当我们在 Q 上调用 .backward()，autograd计算以上梯度并保存在对应tensor的 .grad 属性中。
Q.backward() 是一个向量，因此我们需要在 Q.backward() 中显示地传递一个 gradient 参数。 gradient 是一个和 Q相同形状的tensor，它表示Q关于其本身的梯度，即:

[\frac{\partial Q}{\partial Q} = 1 ]

等效地，我们还可以将Q聚合为一个标量，并隐式的向后调用，如 Q.sum().backward()

external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

梯度现在被保存在 a.grad、 b.grad 中

## &#x68C0;&#x67E5;&#x6536;&#x96C6;&#x7684;&#x68AF;&#x5EA6;&#x662F;&#x5426;&#x6B63;&#x786E;
print(9*a**2 == a.grad)
print(-2*b == b.grad)

输出：

tensor([True, True])
tensor([Ture, True])

选读 – 使用 `autograd` 进行矢量微分

计算图

从概念上来说，autograd在一个由Function对象组成的有向无环图（DAG）中记录了数据（tensors）和所有执行的操作（连同由此产生的新tensors）。在DAG中，叶节点是输入tensors，根节点是输出tensors。通过从根节点到叶节点跟踪此图，你可以使用链式法则自动计算梯度。

在前向过程中，autograd同时进行两件事：

执行请求的操作计算结果tensor，
在DAG中保留操作的 gradient function。

在DAG根节点处调用 .backward() 时启动反向过程。然后 autograd：

由每个 .grad_fn计算梯度，
将梯度累积在其对应tensor的 .grad 属性中，
使用链式法则，将梯度一直传播到叶节点。

下图是以上例子中DAG的可视化表示。在该图中，箭头表示前向过程的方向。节点表示在前向过程中每一个操作的backward functions。蓝色叶节点表示我们的tensor a 和 b。

注意：DAGs在PyTorch中是动态的。需要重点注意的是：DAG是从头开始重新创建的，在每次 .backward调用时，autograd开始填充一个新图。这正是在模型中允许你使用控制流语句的原因。如果需要，你可以在每次迭代中更改形状、大小和操作。

从DAG中排除

torch.autograd 跟踪所有 requires_grad=True 的tensor上的操作。对于不要求计算梯度的tensor， requires_grad=False，并将其从梯度计算DAG中排除。

当一个操作就算只有一个输入tensor有 requires_grad=True，其输出的tensor仍然要计算梯度。

x = torch.rand(5, 5)
y = torch.rand(5, 5)
z = torch.rand((5, 5), requires_grad=True)

a = x + y
print(f"Does 'a' require gradients? : {a.requires_grad}")
b = x + z
print(f"Does 'b' require gradients? : {b.requires_grad}")

输出：

Does a require gradients? : False
Does b require gradients? : True

在神经网络中，不计算梯度的参数通常成为冻结参数。如果你事先知道不需要这些参数的梯度，那冻结模型的一部分很有用（这通过减少autograd计算量提供了一些性能优势）。

从DAG中排除的另一个重要的常见用法是finetuning a pretrained network

在finetune中，我们冻结模型的大部分参数，并且通常只修改分类层以对新的标签作出预测。让我们通过一个小例子来演示这一点。像之前一样，我们加载一个预训练resnet18模型，并且冻结所有参数。

from torch import nn, optim

model = torchvision.models.resnet18(pretrained=True)

&#x51BB;&#x7ED3;&#x7F51;&#x7EDC;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x53C2;&#x6570;
for param in model.parameters():
    param.requires_grad = False

假设我们要在一个10标签数据集上微调模型。在resnet中，分类层是最后的线性层 model.fc。我们可以简单地用一个新的线性层（默认情况下未冻结）替换它作为我们的分类器。

model.fc = nn.Linear(512, 10)

模型中除了 model.fc 的所有参数均被冻结。需要计算梯度的参数仅仅是 model.fc 的权重和偏置

&#x4EC5;&#x4F18;&#x5316;&#x5206;&#x7C7B;&#x5C42;
optimizer = optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

注意，尽管我们在优化器中注册了所有参数，但是计算梯度（在梯度下降中更新）的参数仅是分类层的权重和偏置。

The same exclusionary functionality is available as a context manager in torch.no_grad().

Original: https://www.cnblogs.com/DeepRS/p/15715297.html
Author: Deep_RS
Title: PYTORCH: 60分钟 | TORCH.AUTOGRAD

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/621346/

转载文章受原作者版权保护。转载请注明原作者出处！

Linux

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Docker部署Dotnet

方法一：打包+镜像部署将要部署的项目及其依赖的项目上传至指定文件夹下要部署的项目添加Docker支持，生成Dockerfile文件将生成的Dockerfile文件上传至要部…

Linux 2023年6月13日
00113
redis 基于SpringBoot Reids 的工具类

redis 基于SpringBoot Reids 的工具类 package com.mhy.springredis.utils; import org.springframewor…

Linux 2023年6月7日
00115
Tomcat 实现双向SSL认证

大概思路：使用openssl生产CA证书，使用keytool生产密钥库 1、生成CA密钥 genrsa [产生密钥命令] -des3 [加密算法] -out[密钥文件输出路径] …

Linux 2023年6月14日
0078
pymysql模块的使用

pymysql模块的使用 import pymysql 1、连接数据库 conn = pymysql.connect( user=’root’, # The first four …

Linux 2023年6月14日
0090
linux 普通分区与lvm分区

安装linux系统时有时候会提示lvm分区与标准分区首先普及一下lvm分区：lvm是 logical volume manager (逻辑卷管理)，linux环境下对磁盘分区的…

Linux 2023年5月27日
00102
redis 学习指南

2、 redis.windows.conf各项配置参数介绍默认情况下，redis不是在后台模式运行的，如果需要在后台进程运行，把该项的值更改为yes，默认为no daemoniz…

Linux 2023年5月28日
0086
js打印前几天或后几天的日期

创作对你我有价值的，喜欢交朋友，失忆王子，期待与你共同探讨，技术qq群153039807 Original: https://www.cnblogs.com/hshanghai/p…

Linux 2023年6月13日
00103
安装完Ubuntu启动时自动进入grub命令行模式的解决办法

1.先使用ls命令，找到Ubuntu的安装在哪个分区: grub>ls 会罗列所有的磁盘分区信息，比方说: (hd0,1),(hd0,5),(hd0,3),(hd0,2) 2…

Linux 2023年6月13日
0089
MSSQL中游标的语法结构

| 0.21分钟 | 342.4字符 | 1、引言&背景 2、开箱即用的游标结构 3、声明与参考资料 | SCscHero | 2022/4/30 PM10:3 | 系列 …

Linux 2023年6月14日
0086
云主机搭建WordPress个人博客

安装宝塔控制面板宝塔面板是一个简单、好用的面板，它的功能就是将LNMP和服务器的各种管理集成到一个可视化的WEB环境来管理，通过面板，我们普通人不需要掌握具体的技术，只需要动动鼠…

Linux 2023年6月8日
00100
如何设置 QEMU 输出到控制台并使用 Shell 脚本自动化

如何设置 QEMU 输出到控制台并使用 Shell 脚本自动化原文：How to Setup QEMU Output to Console and Automate Using …

Linux 2023年5月28日
00107
操作系统实现：断点切换原理及实现

本文参考书：操作系统真像还原、操作系统原型xv6分析与实验、其中图主要来自linux内核完全注释本文针对断点切换迷茫的问题。详解内核态-用户态的栈变化，了解用户态-内核态的实…

Linux 2023年6月7日
0089
jquery ajax提交数据给后端

大家好，今天铁柱兄给大家带一段jquery ajax提交数据给后端的教学。初学javaweb的同学前端提交数据基本上都是用form表单提交，这玩意儿反正我是觉得不太好玩。而Jav…

Linux 2023年6月13日
0085
Xvfb相关命令

第一种启动方法：Xvfb :99-ac2>/dev/nullexport DISPLAY=:99xhost + & 第二种启动方法Xvfb-ac${DISPLAY:-…

Linux 2023年6月13日
00101
博客园排名预测

前言之前写过一篇绘制博客园积分与排名趋势图的文章——《查看博客园积分与排名趋势图的工具》，使用那篇文章介绍的工具，可以通过趋势图直观的看出排名前进的走势。但是如果想看看自己积分达…

Linux 2023年6月6日
0097
Linux指令_曾佳豪

一、基础指令 1、ls指令含义：ls （list）用法1 ：#ls 含义：列出当前工作目录下所有文件/文件夹的名称 [En] Meaning: list the names o…

Linux 2023年5月27日
00121

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PYTORCH: 60分钟 | TORCH.AUTOGRAD

背景

在PyTorch中的使用

Autograd中的微分

选读 – 使用 autograd 进行矢量微分

计算图

从DAG中排除

大家都在看

选读 – 使用 `autograd` 进行矢量微分