【显存优化】深度学习显存优化方法

2023年6月25日下午10:34 • 人工智能 • 阅读 108

深度学习gpu的显存至关重要，显存过小的话，模型根本无法跑起来，本文介绍几种显存不足时的优化方法，能够降低深度学习模型的显存要求。

一、梯度累加

梯度累加是指在模型训练过程中，训练一个batch的数据得到梯度后，不立即用该梯度更新模型参数，而是继续下一个batch数据的训练，得到梯度后继续循环，多次循环后梯度不断累加，直至达到一定次数后，用累加的梯度更新参数，这样可以起到变相扩大 batch_size 的作用。

model = SimpleNet()
mse = MSELoss()
optimizer = SGD(params=model.parameters(), lr=0.1, momentum=0.9)

accumulate_batchs_num = 10 # 累加10次梯度

for epoch in range(epochs):
    for i, (data, label) in enumerate(loader):

        output = model(data)
        loss = mse(output, label)

        scaled.backward()
        # 当累计的 batch 为 accumulate_batchs_num 时，更新模型参数
        if (i + 1) % accumulate_batchs_num == 0:
            # 训练模型
            optimizer.step()
            optimizer.clear_grad()

二、混合精度

参考：混合精度训练

浮点数据类型主要分为双精度（FP64）、单精度（FP32）、半精度（FP16），如图所示，半精度（FP16）是一种相对较新的浮点类型，在计算机中使用2字节（16位）存储。在IEEE 754-2008标准中，它亦被称作binary16。与计算中常用的单精度（FP32）和双精度（FP64）类型相比，FP16更适于在精度要求不高的场景中使用。

在使用相同的超参数下，混合精度训练使用半精度浮点（FP16）和单精度（FP32）浮点即可达到与使用纯单精度训练相同的准确率，并可加速模型的训练速度，这主要得益于英伟达从Volta架构开始推出的Tensor Core技术。在使用FP16计算时具有如下特点：

FP16可降低一半的内存带宽和存储需求，这使得在相同的硬件条件下研究人员可使用更大更复杂的模型以及更大的batch size大小。
FP16可以充分利用英伟达Volta、Turing、Ampere架构GPU提供的Tensor Cores技术。在相同的GPU硬件上，Tensor Cores的FP16计算吞吐量是FP32的8倍。

但是使用FP16也会存在如下缺点：

数据溢出：数据溢出比较好理解，FP16相比FP32的有效范围要窄很多，使用FP16替换FP32会出现上溢（Overflow）和下溢（Underflow）的情况。而在深度学习中，需要计算网络模型中权重的梯度（一阶导数），因此梯度会比权重值更加小，往往容易出现下溢情况。
舍入误差：Rounding Error指示是当网络模型的反向梯度很小，一般FP32能够表示，但是转换到FP16会小于当前区间内的最小间隔，会导致数据溢出。如0.00006666666在FP32中能正常表示，转换到FP16后会表示成为0.000067，不满足FP16最小间隔的数会强制舍入。

为了想让深度学习训练可以使用FP16的好处，又要避免精度溢出和舍入误差。于是可以通过FP16和FP32的混合精度训练（Mixed-Precision），混合精度训练过程中可以引入权重备份（Weight Backup）、损失放大（Loss Scaling）、精度累加（Precision Accumulated）三种相关的技术。

1、权重备份

权重备份主要用于解决舍入误差的问题。其主要思路是把神经网络训练过程中产生的激活activations、梯度 gradients、中间变量等数据，在训练中都利用FP16来存储，同时复制一份FP32的权重参数weights，用于训练时候的更新。具体如下图所示，在前向和反向计算时，使用FP16，但是更新参数使用FP32.

2、损失缩放

在网络反向传播过程中，梯度的值一般非常小，如果使用FP32可以正常训练，但是如果使用FP16，由于FP16表示的范围问题（下图红线左边的部分在FP16中都为0），会导致较小的梯度在反向传播时为0，造成参数无法优化，模型无法收敛。

为了解决梯度过小数据下溢的问题，对损失函数进行缩放，并在参数优化时再将参数缩放回去。具体的操作为：

① 前向传播：loss = loss * s

②反向传播：grad = grad / s

损失函数乘上一个系数s，则梯度等比例增加，再优化参数时将其缩放为1/s，则可以解决梯度数值下溢的问题。

torch示例代码如下，参考：

Creates model and optimizer in default precision
model = Net().cuda()
optimizer = optim.SGD(model.parameters(), ...)

Creates a GradScaler once at the beginning of training.

scaler = GradScaler()

for epoch in epochs:
    for input, target in data:
        optimizer.zero_grad()

        # Runs the forward pass with autocasting.

        with autocast():
            output = model(input)
            loss = loss_fn(output, target)

        # Scales loss.  Calls backward() on scaled loss to create scaled gradients.

        # Backward passes under autocast are not recommended.

        # Backward ops run in the same dtype autocast chose for corresponding forward ops.

        scaler.scale(loss).backward()

        # scaler.step() first unscales the gradients of the optimizer's assigned params.

        # If these gradients do not contain infs or NaNs, optimizer.step() is then called,
        # otherwise, optimizer.step() is skipped.

        scaler.step(optimizer)

        # Updates the scale for next iteration.

        scaler.update()

3、精度累加

在混合精度的模型训练过程中，使用FP16进行矩阵乘法运算，利用FP32来进行矩阵乘法中间的累加（accumulated），然后再将FP32的值转化为FP16进行存储。简单而言，就是利用FP16进行矩阵相乘，利用FP32来进行加法计算弥补丢失的精度。这样可以有效减少计算过程中的舍入误差，尽量减缓精度损失的问题。

三、重计算

一般来说深度学习网络的一次训练由三部分构成：

前向计算（forward）：在该阶段会对模型的算子进行前向计算，对算子的输入计算得到输出，并传给下一层作为输入，直至计算得到最后一层的结果位置（通常是损失）。
反向计算（backward）：在该阶段，会通过反向求导和链式法则对每一层的参数的梯度进行计算。
梯度更新（优化，optimization）：在该阶段，通过反向计算得到的梯度对参数进行更新，也称之为学习，参数优化。
在反向传播链式传导时，需要中间层的输出来计算参数的梯度，故在训练阶段会保存中间层的输出。为了减少显存消耗，可以不保存中间层的计算结果，在反向传播计算梯度时，再进行局部前向计算出中间层的输出，来用于计算梯度。

重计算是通过时间换空间的操作。

Original: https://blog.csdn.net/qq_40035462/article/details/125466840
Author: 嘟嘟太菜了
Title: 【显存优化】深度学习显存优化方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651696/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch_lightning.utilities.exceptions.MisconfigurationException: You requested GPUs: [1] But…

pytorch_lightning.utilities.exceptions.MisconfigurationException: You requested GPUs: [1] …

人工智能 2023年6月24日
0081
Win10 tensorflow_gpu、CUDA11.2、cuDNN安装和使用

CUDA各种版本大同小异，找到对应的版本下载即可 1、tensorflow_GPU的安装 tensorflow_GPU安装有很多方法，（1）直接使用pip install ten…

人工智能 2023年5月25日
0090
Python — 图像处理—PIL库的使用

PIL库的使用要点：PIL库是一个具有强大图像处理能力的第三方库，不仅包含了丰富的像素、色彩操作功能，还可以用于图像归档和批量处理。 1.PIL库概述 PIL（Python Im…

人工智能 2023年5月26日
0069
论文阅读笔记：Selecting Informative Contexts Improves Language Model Fine-tuning

Selecting Informative Contexts Improves Language Model Fine-tuning** 下载地址：https://arxiv.or…

人工智能 2023年5月30日
0087
ResNet50模型学习笔记

ResNet的各种网络结构图如下图所示。 ResNet的层级结构 Layer->Block->Stage->Network Layer是最小的单位，ResNet5…

人工智能 2023年7月28日
0094
数据处理可视化的最有价值的 50 张图 (上)

数据处理可视化的最有价值的 50 张图数据处理可视化的最有价值的 50 张图 (上) 数据处理可视化的最有价值的 50 张图 (下) 文章目录数据处理可视化的最有价值的 50 …

人工智能 2023年6月11日
0087
Python中的排序函数

列表排序 sort函数： list.sort(cmp=None,key=None,reverse=False) 对原列表进行排序，完成排序后，原列表变为有序列表。 sorted函数…

人工智能 2023年7月8日
0058
感知机算法之Python代码实现

感知机算法之Python代码实现 ; 1.算法简介感知机学习算法原始形式：输入：训练集T输出：w,b感知机模型：f(x)=sign(w·x+b)算法步骤：1.初始化参数w0,b0…

人工智能 2023年7月6日
0080
使用PyQt5搭建yoloV5目标检测平台

使用PyQt5搭建yoloV5目标检测平台一、资源包准备： 1、python3.7 3、Anaconda 4、cuda-10.2.89 5、Visual Stud…

人工智能 2023年7月5日
0086
第6篇熊猫烧香专杀工具编写

目录一、实验清单二、病毒行为回顾三、专杀工具的功能四、专杀工具界面的编写五、专杀工具程序的编写 1、计算病毒程序的散列值 2、查找进程 3、提升权限 4、查找并删除文件 …

人工智能 2023年6月2日
0098
【论文翻译】Multi-modal Knowledge Graphs for Recommender Systems

ABSTRACT 推荐系统在解决信息爆炸问题和提高各种在线应用的用户体验方面显示出巨大潜力。为了解决推荐系统中的数据稀少和冷启动问题，研究人员通过利用有价值的外部知识作为辅助信息，…

人工智能 2023年6月1日
0089
【自然语言处理（NLP）】基于GRU实现情感分类

; 【自然语言处理（NLP）】基于GRU实现情感分类作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智划项目总负责人，全国高等学校计算机教学与…

人工智能 2023年7月26日
0076
使用KNN进行分类和回归

一般情况下k-Nearest Neighbor (KNN)都是用来解决分类的问题，其实KNN是一种可以应用于数据分类和预测的简单算法，本文中我们将它与简单的线性回归进行比较。 KN…

人工智能 2023年6月16日
00105
pandas查看属性和数据

10.2 查看其属性、概览 1.属性 df.shape # 查看形状，⾏数和列数df.dtypes # 查看数据类型df.index # ⾏标签df.columns # 列标签df…

人工智能 2023年7月6日
0065
如何赢在混合云与计算时代？解读英特尔再度回归芯“智”向

自从2021年2月履新英特尔公司的第八任CEO，帕特·基尔格（Pat Gelsinger）就从混合云与计算软件CEO转而成为世界上最大的”芯公司”CEO。作…

人工智能 2023年6月17日
0085
数据分析工具Pandas

ser_obj = pd.Series([1, 2, 3, 4, 5], index=[‘a’, ‘b’, ‘c&#82…

人工智能 2023年7月17日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【显存优化】深度学习显存优化方法

1、权重备份

2、损失缩放

3、精度累加

大家都在看