Pytorch混合精度训练

2023年7月22日上午6:45 • 人工智能 • 阅读 56

还是搬运来给自己学习啊多谢体谅拉~~

这里分享混合精度训练的时候遇到的各种问题：1.forward期间nan，2.训练过程中loss scale一泻千里最终导致训练崩溃，以及如何debug。

简介

FP16(半精度浮点数)表示能够提升拥有TensorCore架构的GPU的计算速度(V100)。有很多相关介绍对其运作原理和使用方法进行了说明，本文就不再赘述。其优点可以概括为2点：

1）FP16只占用通常使用的FP32一半的显存。

2）NVIDIA V系列GPU在对FP16计算速度比FP32快上许多（实际加速比根据混合精度使用策略的不同存在差异）。

但是由于FP16的精度远不如FP32，FP16 (6e−8∼65504)(6e-8\sim65504)(6e-8\sim65504) ，FP32 (1.4e−45∼1.7e38)(1.4e-45\sim1.7e38)(1.4e-45\sim1.7e38) ，FP16需要结合 混合精度(Mixed Precision)机制。即使用FP32保存模型参数和完成梯度更新，并且进行一些求和累加的操作(Normalization层)。同时还有另一个非常重要的机制，即 损失放大(Loss Scaling)。通过将loss放大X倍避免backward计算梯度的时候发生下溢(Underflow)。针对损失放大问题，NVIDIA官网中[1]的下图介绍非常形象

因此需要对loss乘一个loss scale，将其传递到FP16 representable range的安全区域中，这样backward能够享受FP16带来的加速，且对精度的影响控制到最小（计算完梯度后转回FP32除以loss scale再加到同样FP32的模型参数上）。那么这个loss scale自然是越大越能低效下溢问题，但是注意loss scale也不能太大，因为太大的loss sclae会造成grad超出FP16的上限65504从而造成上溢问题。NVIDIA官方推荐的scale阈值是128，换言之小于128阈值的训练通常会造成无法忽视的下溢问题。

FP16, loss scale1无法顺利收敛

换言之，如果grad中存在最大值在乘上loss scale后出现上溢，就必须降低loss scale，而过低的loss scale则会造成下溢从而破坏模型。所以现在大多框架的混合精度模块都有对loss scale的动态控制功能。即初始化一个交大的loss scale值(32768)，检测到过大的grad会自动降低loss scale (/2)，如果一定步数发现没有发生上溢就吧loss scale增大(*2)。

早期pytorch的混合精度训练依赖apex库，不过在1.6更新后，pytorch自带了混合精度模块torch.cuda.amp，具体使用可以参考官网介绍[2]。

Creates a GradScaler once at the beginning of training.

scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)

        # Scales loss.  Calls backward() on scaled loss to create scaled gradients.

        scaler.scale(loss).backward()

        # scaler.step() first unscales gradients of the optimizer's params.

        # If gradients don't contain infs/NaNs, optimizer.step() is then called,
        # otherwise, optimizer.step() is skipped.

        scaler.step(optimizer)

        # Updates the scale for next iteration.

        scaler.update()

不过本文就不再赘述怎么使用这些库了，主要来谈谈我们在混合精度训练的时候遇到的各种问题，具体则是1）forward期间nan，2）训练过程中loss scale一泻千里最终导致训练崩溃，以及如何debug。

前向loss=nan，loss scale一路下降最终退化为0，又或是放弃FP16重回FP32(更慢的训练速度，更多的显存占用和OOM风险)

Forward期间出现nan

一般是前向过程中某些步骤蕴含求和求平均的操作导致了上溢，这种问题比较容易debug，在程序中设置断点，凭借断点（二分法）或者经验来判断出问题的区域。虽然pytorch默认采用了混合精度的训练机制，会保留一些中间层计算为FP32（BN，softmax），即模型会自动在这些层计算时切换为FP32来防止上溢。具体哪些操作是FP16，哪些是FP32可以参考apex当年的划分[3]。但是任然有很多操作是落网之鱼。

这里举2个例子，首先是linear attention中的归一化中包含了多个求和einsum，sum的操作，存在严重的上溢风险。

 v_length = values.size(1)
 values = values / v_length  # prevent fp16 overflow
 KV = torch.einsum("nshd,nshv->nhdv", K, values)  # (S,D)' @ S,V
 Z = 1 / (torch.einsum("nlhd,nhd->nlh", Q, K.sum(dim=1)) + self.eps) # &#x51FA;&#x73B0;NAN
 queried_values = torch.einsum("nlhd,nhdv,nlh->nlhv", Q, KV, Z) * v_length

另一个是3D任务中常常出现的相机参数计算。由于相机参数通常数值会很大(1000以上)，简单的内外参操作matmul也会造成上溢。

proj = torch.matmul(intrinsic, extrinsic) # intrinsic&#x5185;&#x53C2;&#x77E9;&#x9635;&#x548C;extrinsic&#x5916;&#x53C2;&#x77E9;&#x9635;&#x76F8;&#x4E58;&#x51FA;&#x73B0;NAN

解决方案很简单，我们在这些部分的前向固定为FP32即可

with torch.cuda.amp.autocast(enable=False): # &#x7981;&#x6B62;amp&#x81EA;&#x52A8;&#x5207;&#x6362;&#x7CBE;&#x5EA6;
    # &#x4E4B;&#x524D;&#x7684;&#x8F93;&#x51FA;&#x5927;&#x6982;&#x7387;&#x662F;fp16&#xFF0C;&#x8C03;&#x6574;&#x56DE;fp32
    Q = Q.to(torch.float32)
    K = K.to(torch.float32)
    values = values.to(torch.float32)

    v_length = values.size(1)
    values = values / v_length  # prevent fp16 overflow
    KV = torch.einsum("nshd,nshv->nhdv", K, values)  # (S,D)' @ S,V
    Z = 1 / (torch.einsum("nlhd,nhd->nlh", Q, K.sum(dim=1)) + self.eps)  # &#x6CA1;&#x6709;&#x4E0A;&#x6EA2;&#x95EE;&#x9898;
    queried_values = torch.einsum("nlhd,nhdv,nlh->nlhv", Q, KV, Z) * v_length

3D相机矩阵操作也很简单

with torch.cuda.amp.autocast(enable=False): # &#x7981;&#x6B62;amp&#x81EA;&#x52A8;&#x5207;&#x6362;&#x7CBE;&#x5EA6;
    proj = torch.matmul(intrinsic.to(torch.float32), extrinsic.to(torch.float32))

由于只有极少的计算被我们切换到了FP32，我们依旧能够享受到大量FP16带来的加速福利。

loss scale一泻千里

相比起训练一开始就出现nan问题，训练到中途才发现loss scale突然在某个节点疯狂下降，最终导致训练崩溃才是真正混合精度训练的拦路虎。

睡了一晚上，第二天发现白训

首先我们在训练过程中要时刻监控loss scale，不要早就挂掉了才后知后觉

scaler = torch.cuda.amp.GradScaler()
current_loss_scale = scaler.get_scale()
if step % log_iter == 0:
   print('scale:', current_loss_scale)

loss*loss scale的操作是在scaler.scale(loss).backward()完成的，而unsacle是在scaler.step(optimizer)中完成的。所以我们只要在这2步中间观察每层的梯度数值范围，即可确认是哪里溢出了。

&#x533A;&#x5206;params&#x4E3A;&#x4E0D;&#x540C;group&#xFF0C;&#x4EE5;&#x65B9;&#x4FBF;&#x5B9A;&#x4F4D;&#x5BF9;&#x5E94;&#x7684;layer_name
param_groups = []
for n, p in model.named_parameters():
    if p.requires_grad:
        param_groups.append({'params': [p], 'lr': opt_args['lr'], 'weight_decay': opt_args['weight_decay'], 'layer_name': n})

optimizer = torch.optim.AdamW(param_groups, lr=opt_args['lr'], weight_decay=opt_args['weight_decay'])

...

Creates a GradScaler once at the beginning of training.

scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()
        output = model(input)
        loss = loss_fn(output, target)

        # Scales loss.  Calls backward() on scaled loss to create scaled gradients.

        scaler.scale(loss).backward()

        # &#x68C0;&#x67E5;&#x68AF;&#x5EA6;
        with torch.no_grad():
            for group in optimizer.param_groups:
                for param in group["params"]:
                    if param.grad is None:
                        continue
                    if param.grad.is_sparse:
                        if param.grad.dtype is torch.float16:
                            param.grad = param.grad.coalesce()
                        to_unscale = param.grad._values()
                    else:
                        to_unscale = param.grad
                    v = to_unscale.clone().abs().max()
                    if torch.isinf(v) or torch.isnan(v):
                        print('INF in', group['layer_name'], 'of step', global_step, '!!!')

        # scaler.step() first unscales gradients of the optimizer's params.

        # If gradients don't contain infs/NaNs, optimizer.step() is then called,
        # otherwise, optimizer.step() is skipped.

        scaler.step(optimizer)

        # Updates the scale for next iteration.

        scaler.update()

使用这种方式可以很快定位到频繁上溢的层

block1.0.attn频繁出现梯度上溢

上述例子中，笔者finetune了一个Vision Transformer (VIT)，其block1.0.attn频繁出现梯度上溢导致了最终的崩溃。我查看了其未上溢的最大grad为8~10，确实非常不稳定。因此笔者将这层固定为FP32从而训练可以稳定。方法同上，使用torch.cuda.amp.autocast(enable=False)和to(torch.float32)。由经验而言，很多grad上溢出现在最初输入的几层，也许是梯度反传造成的梯度累计爆炸问题造成的？也许和post norm和pre norm的研究有关。大多这些不稳定的模型都是使用pre norm，而post norm可能训练会更加稳定，但是前期的层反而会出现一些梯度消失的问题。

参考whaosoft aiot http://143ai.com

^https://docs.nvidia.com/deeplearning/performance/mixed-precision-training/index.html
^https://pytorch.org/docs/stable/notes/amp_examples.html
^https://github.com/NVIDIA/apex/blob/082f999a6e18a3d02306e27482cc7486dab71a50/apex/amp/lists/functional_overrides.py

Original: https://blog.csdn.net/qq_29788741/article/details/127031596
Author: tt姐whaosoft
Title: Pytorch混合精度训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708575/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

APP攻防之博弈历程

1、APK结构分析我们用 file 命令 aaa.apk 的包就会发现，其就是一个zip的文件格式，unzip解压后你会发现两者的文件结构基本相似都存在androidmanife…

人工智能 2023年6月27日
0086
YOLOv5 Windows环境下的C++部署（GPU）

YOLOv5 Windows环境下的C++部署（GPU）文章目录 YOLOv5 Windows环境下的C++部署（GPU）前言 1、环境介绍 2、环境配置 3、.torchsc…

人工智能 2023年5月26日
0096
Python入门50个小程序

程序1：数字组合问题描述：有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？问题分析：可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列…

人工智能 2023年7月5日
0056
OpenCV-趣味小游戏-手掌击球

一、项目效果展示。二、游戏规则介绍通过以上画面我们可以发现我们需要用手掌去击打屏幕中的小球来获得得分，我们用手靠进小球到达一定的距离内小球就会改变颜色，然后我们将手掌远离小球，…

人工智能 2023年7月28日
0065
一文速学-时间序列分析算法之一次移动平均法和二次移动平均法详解+实例代码

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月4日
0060
回归代码_二元Logist回归及交互作用在R语言实现代码

投稿/科研合作：daixjdoctor@126.com 联系我们：137704924或372699348 群1 -5：科研讨论、文献汇报群 1.相乘交互作用及二元Logist回归：…

人工智能 2023年6月18日
0085
CV计算机视觉核心08-目标检测yolo v3（coco数据集）

CV计算机视觉核心08-目标检测yolo v3 对应代码文件下载：https://download.csdn.net/download/m0_37755995/86237192需要…

人工智能 2023年7月9日
0086
pandas（5）数据表的合并

数据表的合并本节目标：学会多个数据表的合并本节技术点：join,melt,merge，compare 本节阅读需要（20）min。本节实操需要（20）min。文章目录数据表…

人工智能 2023年7月7日
0071
SuperPoint特征检测算法Train&Evaluate教程

SuperPoint: Self-Supervised Interest Point Detection and Description 前言 SuperPoint是一种基于深度学…

人工智能 2023年5月23日
0068
关于git，你需要了解这些

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0073
机器学习_深度学习毕设题目汇总——文本分类

可以使用深度学习算法中的图像分类_技术来实现垃圾 _分类。具体步骤如下： 1. 数据收集：收集垃圾分类_的图像数据集，包括可回收物、有害垃圾、湿垃圾和干垃圾。 2. 数据预处理…

人工智能 2023年7月2日
0061
conda下安装pytorch最详细教程 // 安装pytorch踩坑记录 // cuda11.5下pytorch安装 // torch.cuda.is_available()输出False解决办法

几点说在前面！！！！！我踩的坑： 1、一开始入坑使用pytorch框架没有用anaconda，现在非常后悔！！！conda对小白管理环境真的巨好用！！！2、安装时候torch版本…

人工智能 2023年7月23日
0062
项目实战——配置git环境与项目创建

目录一、项目设计二、配置git环境和项目配置 1、git的作用 2、git 环境配置 3、初始化git仓库 4、前后端分离项目三、创建后端四、创建前端五、如何解决跨域问题…

人工智能 2023年6月27日
00103
加权最小二乘法的理解

在需要人为地改变观测量的权重的应用场合中，都会涉及到加权最小二乘法的应用。那什么什么是加权最小二乘法？加权最小二乘法的概念：加权最小二乘是对原模型进行加权，是该模型成为一个新…

人工智能 2023年6月18日
0087
动手学习深度学习09—-Softmax 回归 + 损失函数 + 图片分类数据集

图片分类数据集课程中使用的数据集是 FashionMNIST首先看如何下载使用这个数据集： import torch import torchvision from torch….

人工智能 2023年6月17日
0060
VITS 语音合成完全端到端TTS的里程碑

Conditional Variational Autoencoder with Adversarial Learning for End-to-End Text-to-Speec…

人工智能 2023年7月28日
00280

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch混合精度训练

简介

Forward期间出现nan

loss scale一泻千里

大家都在看