PyTorch介绍-使用 TORCH.AUTOGRAD 自动微分

训练神经网络时,最常用的算法就是 反向传播。在该算法中,参数(模型权重)会根据损失函数关于对应参数的梯度进行调整。

为了计算这些梯度,PyTorch内置了名为 torch.autograd 的微分引擎。它支持任意计算图的自动梯度计算。

一个最简单的单层神经网络,输入 x,参数 wb,某个损失函数。它可以用PyTorch这样定义:

import torch

x = torch.ones(5)      # input tensor
y = torch.zeros(3)     # expected output
w = torch.randn(5, 3, requires_grad=True)
b = torch.randn(3, requires_grad=True)
z = torch.matmul(x, w) + b    # 矩阵乘法
loss = torch.nn.functional.binary_cross_entropy_with_logits(z, y)

Tensors、Functions and Computational graph

上述代码定义了下面的 computational graph:

PyTorch介绍-使用 TORCH.AUTOGRAD 自动微分

在该网络中, wbparameters,是我们需要优化的。因此,我们需要能够计算损失函数关于这些变量的梯度。因此,我们设置了这些tensor的 requires_grad 属性。

注意:在创建tensor时可以设置 requires_grad 的值,或者创建之后使用 x.requires_grad_(True) 方法。

我们应用到tensor上构成计算图的function实际上是 Function 类的对象。该对象知道如何计算前向的函数,还有怎么计算反向传播步骤中函数的导数。反向传播函数存储在tensor的 grad_fn 属性中。You can find more information of Function in the documentation

print('Gradient function for z =', z.grad_fn)
print('Gradient function for loss =', loss.grad_fn)

输出:

Gradient function for z = <addbackward0 object at 0x7faea5ef7e10>
Gradient function for loss = <binarycrossentropywithlogitsbackward0 object at 0x7faea5ef7e10>
</binarycrossentropywithlogitsbackward0></addbackward0>

计算梯度

为了优化神经网络的参数权重,我们需要计算损失函数关于参数的导数,即,我们需要利用一些固定的 xy 计算(\frac{\partial loss}{\partial w})和(\frac{\partial loss}{\partial b})。为计算这些导数,可以调用 loss.backward(),然后从 w.gradb.grad

loss.backward()
print(w.grad)
print(b.grad)

输出:

tensor([[0.0043, 0.2572, 0.3275],
        [0.0043, 0.2572, 0.3275],
        [0.0043, 0.2572, 0.3275],
        [0.0043, 0.2572, 0.3275],
        [0.0043, 0.2572, 0.3275]])
tensor([0.0043, 0.2572, 0.3275])

注意:

  • 我们只能在计算图中 requires_grad=True 的叶节点获得 grad 属性。对于其它节点,梯度是无效的。
  • 出于性能原因,我们只能对给定的graph使用 backward 执行梯度计算。如果需要在同一graph调用若干次 backward,在调用时,需要传入 retain_graph=True

禁用梯度跟踪

默认情况下,所有 requires_grad=True 的tensor都会跟踪它们的计算历史,并支持梯度计算。但是在一些情况下并不需要,例如,当我们已经训练了一个模型,并将其用在一些输入数据上,即,仅仅经过网络做前向运算。那么可以在我们的计算代码外包围 torch.no_grad() 块停止跟踪计算。

z = torch.matmul(x, w) + b
print(z.requires_grad())

with torch.no_grad():
    z = torch.matmul(x, w) + b
print(z.requires_grad)

输出:

True
False

在tensor上使用 detach() 也能达到同样的效果

z = torch.matmul(x, w) + b
z_det = z.detach()
print(z_det.requires_grad)

输出:

False

禁止梯度跟踪的几个原因:

  • 将神经网络的一些参数标记为 frozen parameters。这在finetuning a pretrained network中是非常常见的脚本。
  • 当你只做前向过程,用于 speed up computations,因为tensor计算而不跟踪梯度将会更有效。

More on Coputational Graphs

概念上,autograd在一个由Function对象组成的有向无环图(DAG)中保留了数据(tensors)记录,还有所有执行的操作(以及由此产生的新的tensors)。在DAG中,叶节点是输入tensor,根节点是输出tensors。通过从根到叶跟踪该图,可以使用链式法则自动地计算梯度。

在前向过程中,autograd同时进行两件事:

  • 运行请求的操作计算结果tensor
  • 在DAG中保存操作的梯度函数

当在DAG根部调用 .backward()时,后向过程就会开始。 autograd会:

  • 由每一个 .grad_fn 计算梯度。
  • 在对应tensor的 ‘.grad’ 属性累积梯度
  • 使用链式法则,一直传播到叶tensor

注意: DAGs在PyTorch是动态的,需要注意的一点是,graph是从头开始创建的;在每次调用 .backward() 之后,autograd开始生成一个新的graph。这允许你在模型中使用控制流语句;如果需要,你可以在每次迭代中改变shape,size,and operations。

选读:Tensor梯度和Jacobian Products

延伸阅读

Original: https://www.cnblogs.com/DeepRS/p/15743698.html
Author: Deep_RS
Title: PyTorch介绍-使用 TORCH.AUTOGRAD 自动微分

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/609932/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

  • 20191223 实验一 密码引擎

    任务一 OpenEuler系统安装 1.登录自己的华为云账号,参考附件图示,构建基于鲲鹏和OpenEuler的ECS。或者通过使用树莓派安装OpenEuler,或者自己通过虚拟机安…

    Linux 2023年6月8日
    095
  • Docker私有仓库部署

    修改daemon.json 重启docker服务 镜像上传至私有仓库 标记此镜像为私有仓库的镜像 再次启动私服容器 Original: https://www.cnblogs.co…

    Linux 2023年6月8日
    062
  • 继承与初始化

    了解包括继承在内的初始化全过程: 执行结果: 程序运行时,先试图访问Beetle.main()(一个static方法),访问Beetle类的静态方法将会使Beetle类加载,即加载…

    Linux 2023年6月8日
    0101
  • 用powershell脚本,检测cpu100%,并触发sqlserver主备切换。

    我为园子设计的脚本大致如下:1慢检测:任务计划每分钟运行。发现cpu高于95%后,触发2。2快检测:每隔5秒钟运行,发现cpu高于95%,连续6次后,触发3。3报警n次。超出5分钟…

    Linux 2023年6月14日
    097
  • Python 批处理sql插入 %s 占位符报错

    语法错误 在查询表达式 ‘%s’ 中。 (-3100) (SQLPrepare)”) 语法错误 在查询表达式 ‘%s’ …

    Linux 2023年6月7日
    0108
  • TCP三次握手 四次挥手

    最近在恶补计算机网络方面的知识,之前对于TCP的三次握手和四次分手也是模模糊糊,对于其中的细节更是浑然不知,最近看了很多这方面的知识,也在系统的学习计算机网络,加深自己的CS功底,…

    Linux 2023年6月7日
    078
  • 应用配置管理,基础原理分析

    工程可以有点小乱,但配置不能含糊; 一、配置架构 在微服务的代码工程中,配置管理是一项复杂的事情,即需要做好各个环境的配置隔离措施,还需要确保生产环境的配置安全;如果划分的微服务足…

    Linux 2023年6月14日
    0101
  • jmeter学习记录–05–Beanshell2

    学习beanshell时有不少的例子、遇到不少问题。在此记录下。 测试实例列表 A1:使用Beanshell请求作为测试请求 一个打包的Jar包,直接对其内的方法进行测试。 第一步…

    Linux 2023年5月28日
    096
  • 不割韭菜,纯分享:剖析HTML中的类,运维开发必备前端技能,我们一起坚持。

    写在开篇 开篇之前,先提个问题,什么是类?分类吗?可以这么说吧!我们可以给物体分类,也可以给人分类。正所谓,物以类聚,人以群分。难道我们这里是给元素分类?用分类来理解是不准确的啦!…

    Linux 2023年6月7日
    092
  • Ubuntu更换镜像源

    当修改 sources.list文件时,我们需要将下面任意一个镜像源的代码 复制粘贴到该文件中。 阿里源 阿里镜像源 deb http://mirrors.aliyun.com/u…

    Linux 2023年6月14日
    078
  • 微信白名单获取

    公司在微信WIFI登录项目中,需要在BRAS设备上添加微信服务器的IP地址到白名单列表中,以实现用户连接热点后,能够使用微信中的功能(如:添加公众号),但不能使用其他应用进行上网操…

    Linux 2023年6月14日
    098
  • 一位美国教授的科研诀窍:每周工作100小时(转)

    今天看到了,Xinyu Zhang 的一篇文章,深受启发,转载一下。 OSU计算机系一位教授到北大讲座,学生提问:您组里发了那么多牛paper,有什么诀窍? 教授回答:我们组里,从…

    Linux 2023年6月14日
    095
  • 什么是可调CAP策略?为什么需要可调CAP策略?

    在说可调CAP策略之前,我们要先说说CAP理论。 CAP理论是设计分布式系统必用的黄金法则,它提出了设计分布式系统的三个基本要求:一致性(Consistency)、可用性(Avai…

    Linux 2023年6月6日
    0105
  • ret2syscall

    博客网址:www.shicoder.top微信:18223081347欢迎加群聊天 :452380935 这一次我们来深入分析下更难的栈溢出题目 ret2syscall 首先还是先…

    Linux 2023年6月13日
    0112
  • Git 不识别文件名字母大小写变化

    问题 今天为一个项目撰写持续构建计划,撰写 Jenkinsfile 之后进行构建时报错: [2022-05-23 16:54:21] unable to prepare conte…

    Linux 2023年6月7日
    084
  • 数据结构 图

    cpp;gutter:true;</p> <h1>include</h1> <p>using namespace std;</…

    Linux 2023年6月13日
    066
亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球