PYTORCH: 60分钟 | TORCH.AUTOGRAD

2023年7月25日上午2:26 • 技术杂谈 • 阅读 94

torch.autograd 是PyTorch的自动微分引擎，用以推动神经网络训练。在本节，你将会对autograd如何帮助神经网络训练的概念有所理解。

背景

神经网络（NNs）是在输入数据上执行的嵌套函数的集合。这些函数由参数（权重、偏置）定义，并在PyTorch中保存于tensors中。

训练NN需要两个步骤：

前向传播：在前向传播中（forward prop），神经网络作出关于正确输出的最佳预测。它使输入数据经过每一个函数来作出预测。
反向传播：在反向传播中（backprop），神经网络根据其预测中的误差来调整其参数，它通过从输出向后遍历，收集关于函数参数的误差的导数（梯度），并使用梯度下降优化参数。有关更多关于反向传播的细节，参见video from 3Blue1Brownvideo from 3Blue1Brown。

在PyTorch中的使用

让我们来看一下单个训练步骤。对于这个例子，我们从 torchvision 加载了一个预训练的resnet18模型。我们创建了一个随机数据tensor，用以表示一个3通道图片，其高和宽均为64，而其对应的 label 初始化为某一随机值。

import torch, torchvision
model = torchvision.models.resnet18(pretrained=True)
data = torch.rand(1, 3, 64, 64)
labels = torch.rand(1, 1000)

接下来，我们将数据输入模型，经过模型的每一层最后作出预测。这是 前向过程。

prediction = model(data) # forward pass

我们使用模型的预测及其对应的标签计算误差（ loss）。下一步是通过网络反向传播误差。当在误差tensor上调用 .backward()时，反向传播开始。然后，Autograd计算针对每一个模型参数的梯度，并将其保存在参数的 .grad 属性中。

loss = (prediction - labels).sum()
loss.backward() # backward pass

接下来，我们加载一个优化器，在此案例中是SGD，学习率是0.01，动量参数（momentum）是0.9。我们在优化器中注册所有的模型参数。

optim = torch.optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

最后，我们调用 .step()启动梯度下降。优化器会通过保存在 .grad 的参数梯度调整所有参数。

optim.step() # gradient descent

此时，你已拥有训练神经网络所需的一切。以下部分详细介绍了autograd的工作原理 – 可随意跳过。

Autograd中的微分

让我们来看一下 autograd是如何收集梯度的。创建两个tensor a 和 b，并且 requires_grad=True。这向 autograd 发出信号，跟踪在它们上执行的每一个操作。

import torch
a = torch.tensor([2., 3.], requires_grad=True)
b = torch.tensor([6., 4.], requires_grad=True)

由 a 和 b 创建tensor Q。

[Q = 3a^2 – b^2 ]

Q = 3*a**2 - b**2

假设 a 和 b 是一个神经网络的参数， Q 是误差。在NN训练中，求解关于参数的梯度，即：

[\frac{\partial Q}{\partial a} = 6a ]

[\frac{\partial Q}{\partial b} = -2b ]

当我们在 Q 上调用 .backward()，autograd计算以上梯度并保存在对应tensor的 .grad 属性中。
Q.backward() 是一个向量，因此我们需要在 Q.backward() 中显示地传递一个 gradient 参数。 gradient 是一个和 Q相同形状的tensor，它表示Q关于其本身的梯度，即:

[\frac{\partial Q}{\partial Q} = 1 ]

等效地，我们还可以将Q聚合为一个标量，并隐式的向后调用，如 Q.sum().backward()

external_grad = torch.tensor([1., 1.])
Q.backward(gradient=external_grad)

梯度现在被保存在 a.grad、 b.grad 中

## &#x68C0;&#x67E5;&#x6536;&#x96C6;&#x7684;&#x68AF;&#x5EA6;&#x662F;&#x5426;&#x6B63;&#x786E;
print(9*a**2 == a.grad)
print(-2*b == b.grad)

输出：

tensor([True, True])
tensor([Ture, True])

选读 – 使用 `autograd` 进行矢量微分

计算图

从概念上来说，autograd在一个由Function对象组成的有向无环图（DAG）中记录了数据（tensors）和所有执行的操作（连同由此产生的新tensors）。在DAG中，叶节点是输入tensors，根节点是输出tensors。通过从根节点到叶节点跟踪此图，你可以使用链式法则自动计算梯度。

在前向过程中，autograd同时进行两件事：

执行请求的操作计算结果tensor，
在DAG中保留操作的 gradient function。

在DAG根节点处调用 .backward() 时启动反向过程。然后 autograd：

由每个 .grad_fn计算梯度，
将梯度累积在其对应tensor的 .grad 属性中，
使用链式法则，将梯度一直传播到叶节点。

下图是以上例子中DAG的可视化表示。在该图中，箭头表示前向过程的方向。节点表示在前向过程中每一个操作的backward functions。蓝色叶节点表示我们的tensor a 和 b。

注意：DAGs在PyTorch中是动态的。需要重点注意的是：DAG是从头开始重新创建的，在每次 .backward调用时，autograd开始填充一个新图。这正是在模型中允许你使用控制流语句的原因。如果需要，你可以在每次迭代中更改形状、大小和操作。

从DAG中排除

torch.autograd 跟踪所有 requires_grad=True 的tensor上的操作。对于不要求计算梯度的tensor， requires_grad=False，并将其从梯度计算DAG中排除。

当一个操作就算只有一个输入tensor有 requires_grad=True，其输出的tensor仍然要计算梯度。

x = torch.rand(5, 5)
y = torch.rand(5, 5)
z = torch.rand((5, 5), requires_grad=True)

a = x + y
print(f"Does 'a' require gradients? : {a.requires_grad}")
b = x + z
print(f"Does 'b' require gradients? : {b.requires_grad}")

输出：

Does a require gradients? : False
Does b require gradients? : True

在神经网络中，不计算梯度的参数通常成为冻结参数。如果你事先知道不需要这些参数的梯度，那冻结模型的一部分很有用（这通过减少autograd计算量提供了一些性能优势）。

从DAG中排除的另一个重要的常见用法是finetuning a pretrained network

在finetune中，我们冻结模型的大部分参数，并且通常只修改分类层以对新的标签作出预测。让我们通过一个小例子来演示这一点。像之前一样，我们加载一个预训练resnet18模型，并且冻结所有参数。

from torch import nn, optim

model = torchvision.models.resnet18(pretrained=True)

&#x51BB;&#x7ED3;&#x7F51;&#x7EDC;&#x4E2D;&#x7684;&#x6240;&#x6709;&#x53C2;&#x6570;
for param in model.parameters():
    param.requires_grad = False

假设我们要在一个10标签数据集上微调模型。在resnet中，分类层是最后的线性层 model.fc。我们可以简单地用一个新的线性层（默认情况下未冻结）替换它作为我们的分类器。

model.fc = nn.Linear(512, 10)

模型中除了 model.fc 的所有参数均被冻结。需要计算梯度的参数仅仅是 model.fc 的权重和偏置

&#x4EC5;&#x4F18;&#x5316;&#x5206;&#x7C7B;&#x5C42;
optimizer = optim.SGD(model.parameters(), lr=1e-2, momentum=0.9)

注意，尽管我们在优化器中注册了所有参数，但是计算梯度（在梯度下降中更新）的参数仅是分类层的权重和偏置。

The same exclusionary functionality is available as a context manager in torch.no_grad().

Original: https://www.cnblogs.com/DeepRS/p/15715297.html
Author: Deep_RS
Title: PYTORCH: 60分钟 | TORCH.AUTOGRAD

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/714156/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Apeaksoft iOS Toolkit for Mac/Win(iOS设备数据恢复软件)中文

Original: https://www.cnblogs.com/aurora-123/p/16865778.htmlAuthor: 佛系女孩Title: Apeaksoft i…

技术杂谈 2023年7月10日
0069
bootstrap响应式前端页面

bootstrap响应式学习参考源码，代码主要是通过bootstrap实现了响应式布局，简单易懂。 html;gutter:true 一、项目目录</p> <pr…

技术杂谈 2023年5月31日
0088
yuv rgb 互转公式及算法

1 前言自然界的颜色千变万化，为了给颜色一个量化的衡量标准，就需要建立色彩空间模型来描述各种各样的颜色，由于人对色彩的感知是一个复杂的生理和心理联合作用的过程，所以在不同的应用领…

技术杂谈 2023年5月31日
0087
域名ICP备案<阿里云>

阅读指引适用人：想要通过国内域名访问页面或者接口，需要进行ICP备案解决问题：备案过程中发生的问题阅读耗时：3分钟参考链接：阿里云ICP流程-视频、备案相关问题、注销备案相关问题…

技术杂谈 2023年6月21日
0089
tcpdump使用教程

一、说明在分析了wireshark使用方法后，其表达式书写基本没什么问题，但在linux上使用的更多是tcpdump。 tcpdump自大学就开始在用了，但一直没搞懂其表达式的书…

技术杂谈 2023年5月31日
0089
虚拟机安装Centos7.5详细教程

（3）选择操作系统Linux，版本为CentOS 7 64 位，点击下一步。（4）定义虚拟机的名字，并设置虚拟机保存的地址，点击下一步。（5）设置虚拟机的处理器信息，点击下一步…

技术杂谈 2023年7月25日
0083
搜索某个目录下所有jar包中的mapper目录下的xml文件

rm -rf /mapper/* find /data/app/app-*/lib ! -path "*xnpush*" ! -path "*port…

技术杂谈 2023年5月31日
0089
RMarkdown进阶操作

技术背景 Markdown大家都比较熟悉了，特别是在写程序文档和写数学公式时，拥有着无与伦比的便利性。同时在前面的一篇博客中我们介绍了使用RMarkdown去写Latex Beam…

技术杂谈 2023年7月25日
0060
Vue编程式路由导航和路由守卫

具体编码： methods: { pushShow(m) { this.$router.push({ name: ‘msg-d’, // 就是路由的名称，不能使用path para…

技术杂谈 2023年6月21日
0092
maven 配置远程仓库服务器密码

如果maven仓库被指定为私库或者有权限设定的话，一般来说是可以下载jar包的。但是发布jar包就有问题了如果maven仓库设置了权限系统，用户不仅需要具有远程仓库的权限，还需要…

技术杂谈 2023年5月30日
0085
Thymeleaf 简介

Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。它与 JSP，Velocity，FreeMaker 等模板引擎类似，也可以轻易地与 Spring…

技术杂谈 2023年5月31日
0074
Jedis操作hash和Jedis操作List

Jedis操作hash和Jedis操作List 哈希类型 hash ：map个时间哦 hset hget hgetAll package com.ailyt.jiedis.test…

技术杂谈 2023年6月21日
00106
MySQL笔记汇总(1)基础篇

通用语法及分类 DDL: 数据定义语言，用来定义数据库对象（数据库、表、字段） DML: 数据操作语言，用来对数据库表中的数据进行增删改 DQL: 数据查询语言，用来查询数据库中表…

技术杂谈 2023年7月24日
0056
Vue +Django 开发第二关:Post请求中的CSRF验证

#Vue+Django的第二关:CSRF验证当看到大大的Forbidden时,知道这是个硬茬. django为了方式post给网站带来的安全问题,对每次post请求都要求在网页页…

技术杂谈 2023年7月11日
0089
5. `sklearn`下的线性回归

以线性回归为例，介绍sklearn包进行机器学习的流程本文以线性回归为例，介绍使用 sklearn进行机器学习的一般过程。首先生成模拟数据 import numpy as np…

技术杂谈 2023年7月10日
0070
[CSS] css使用first-child 和last-child 实现三条杠效果

first-child 和last-child是伪类选择器，选择第一个和选择最后一个子元素现在实现下面的效果 class="menuico"> .men…

技术杂谈 2023年6月1日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

PYTORCH: 60分钟 | TORCH.AUTOGRAD

背景

在PyTorch中的使用

Autograd中的微分

选读 – 使用 autograd 进行矢量微分

计算图

从DAG中排除

大家都在看

选读 – 使用 `autograd` 进行矢量微分