如何使用 PyTorch 进行半精度训练

2023年7月22日下午10:04 • 人工智能 • 阅读 91

; 实验：混合精度训练对比 (GTX 3090 VS TESLA V100-SXM2)

经常有小伙伴问我 TESLA V100 显存 16GB 比 GTX 3090 的 24GB 少了 8GB，价格还一样，为啥要用 V100 呢？

使用精度低于 32 位浮点数的数字格式有很多好处。首先，它们需要 更少的内存，从而能够训练和部署更大的神经网络。其次，它们需要 更少的内存带宽，从而加快数据传输操作。第三，数学运算在降低精度的情况下 运行得更快，尤其是在具有 Tensor Core 支持该精度的 GPU 上。混合精度训练实现了所有这些好处，同时确保与全精度训练相比不会丢失特定于任务的准确性。

使用混合精度训练需要以下两个步骤：

移植模型以使用 FP16 数据类型。
添加损失缩放以保留较小的梯度值。

下载数据集

!featurize dataset download 12d20991-7d1a-4722-bf42-b3933bf34689

以下两个包如果自己环境没有的同学请去掉注释运行

#!pip install nvidia-ml-py3 timm

import torch
import timm
import cv2
import os
import nvidia_smi
import random

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from datetime import datetime

sns.set_theme(style="whitegrid")

df = pd.read_csv('/home/featurize/data/FMY/train.csv')
df.head(2)

定义 PyTorch 的 Dataset

class Dataset(torch.utils.data.Dataset):

    def __init__(self, df: pd.DataFrame):
        self.df = df

    def __getitem__(self, index: int):
        row = self.df.iloc[index]
        fn = row.image
        # &#x8BFB;&#x53D6;&#x6570;&#x636E;
        image = cv2.imread(os.path.join(row.path, fn))
        image = cv2.cvtColor(image, cv2.COLOR_BGR2RGB)

        # &#x7EDF;&#x4E00;&#x6570;&#x636E;&#x5C3A;&#x5BF8;
        image = cv2.resize(image, (384, 512), interpolation=cv2.INTER_LINEAR)
        image = image.transpose(2, 0, 1)

        label = np.array([row.label])

        return torch.from_numpy(image).float(), torch.from_numpy(label).float()

    def __len__(self):
        return len(self.df)

创建 PyTorch 的 Dataloader

train_dataset = Dataset(df)
train_dataloader = torch.utils.data.DataLoader(
    train_dataset,
    batch_size=32,
    num_workers=8,
    shuffle=True,
    pin_memory=True
)

生成随机的样本看一看

image, label = train_dataset.__getitem__(random.randint(0, len(train_dataset)-1))
plt.imshow(image.int().permute(1, 2, 0));
print('Label:', label.int().item())

创建模型、优化器、损失函数

model = timm.create_model('tf_efficientnet_b0', num_classes=1).cuda()
optimizer = torch.optim.SGD(model.parameters(), lr=1e-3, momentum=0.9)
criterion = torch.nn.BCEWithLogitsLoss()

上面的这些都是为实验作准备，选择的都是较小的 b0 模型和基础的损失函数，接下来的 4 个 Cell 分别对比了

GTX 3090

单精度
混合精度

V100

单精度
混合精度

所占用的 GPU 显存以及 计算速度。更重要的是让小伙伴了解 如何使用 PyTorch 半精度进行训练。

实验一 GTX 3090 VS V100 （单精度）

now = datetime.now()
start_time = now.strftime("%H:%M:%S")
print("Start Time =", start_time)

for epoch in range(1):

    running_loss = 0.0
    for i, data in enumerate(train_dataloader):
        # get the inputs; data is a list of [inputs, labels]
        inputs, labels = data
        inputs, labels = inputs.cuda(), labels.cuda()

        optimizer.zero_grad()

        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 100 == 99:    # print every 100 mini-batches
            print(f'Epoch: {epoch + 1} Iterations: {i + 1} Loss: {running_loss}')
            running_loss = 0.0

print('Finished Training')

now = datetime.now()
finish_time = now.strftime("%H:%M:%S")
print("Finish Time =", finish_time)

nvidia_smi.nvmlInit()
handle = nvidia_smi.nvmlDeviceGetHandleByIndex(0)
info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)

print("Total memory:", info.total)
print("Free memory:", info.free)
print("Used memory:", info.used)
print("GPU: ", nvidia_smi.nvmlDeviceGetName(handle))

nvidia_smi.nvmlShutdown()

now = datetime.now()
start_time = now.strftime("%H:%M:%S")
print("Start Time =", start_time)

for epoch in range(1):

    running_loss = 0.0
    for i, data in enumerate(train_dataloader):
        # get the inputs; data is a list of [inputs, labels]
        inputs, labels = data
        inputs, labels = inputs.cuda(), labels.cuda()

        optimizer.zero_grad()

        outputs = model(inputs)
        loss = criterion(outputs, labels)
        loss.backward()
        optimizer.step()

        running_loss += loss.item()
        if i % 100 == 99:    # print every 100 mini-batches
            print(f'Epoch: {epoch + 1} Iterations: {i + 1} Loss: {running_loss}')
            running_loss = 0.0

print('Finished Training')

now = datetime.now()
finish_time = now.strftime("%H:%M:%S")
print("Finish Time =", finish_time)

nvidia_smi.nvmlInit()
handle = nvidia_smi.nvmlDeviceGetHandleByIndex(0)
info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)

print("Total memory:", info.total)
print("Free memory:", info.free)
print("Used memory:", info.used)
print("GPU: ", nvidia_smi.nvmlDeviceGetName(handle))

nvidia_smi.nvmlShutdown()

上面的训练可以看到

GTX 3090

显存占用：14205845504
计算耗时：114 秒

V100

显存占用：13943701504
计算耗时：122 秒

V100 单精度计算 略慢于 GTX 3090

实验二 GTX 3090 VS V100 （半精度）

scaler = torch.cuda.amp.GradScaler()
autocast = torch.cuda.amp.autocast

now = datetime.now()
current_time = now.strftime("%H:%M:%S")
print("Start Time =", current_time)

for epoch in range(1):
    running_loss = 0.0
    for i, data in enumerate(train_dataloader):
        inputs, labels = data
        inputs, labels = inputs.cuda(), labels.cuda()

        optimizer.zero_grad()

        with autocast():
            outputs = model(inputs)
            loss = criterion(outputs, labels)

        scaler.scale(loss).backward()

        scaler.step(optimizer)

        scaler.update()
        running_loss += loss.item()
        if i % 100 == 99:    # print every 100 mini-batches
            print(f'Epoch: {epoch + 1} Iterations: {i + 1} Loss: {running_loss}')
            running_loss = 0.0

now = datetime.now()
current_time = now.strftime("%H:%M:%S")
print("Finish Time =", current_time)

nvidia_smi.nvmlInit()
handle = nvidia_smi.nvmlDeviceGetHandleByIndex(0)
info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)

print("Total memory:", info.total)
print("Free memory:", info.free)
print("Used memory:", info.used)
print("GPU: ", nvidia_smi.nvmlDeviceGetName(handle))

nvidia_smi.nvmlShutdown()

scaler = torch.cuda.amp.GradScaler()
autocast = torch.cuda.amp.autocast

now = datetime.now()
current_time = now.strftime("%H:%M:%S")
print("Start Time =", current_time)

for epoch in range(1):
    running_loss = 0.0
    for i, data in enumerate(train_dataloader):
        inputs, labels = data
        inputs, labels = inputs.cuda(), labels.cuda()

        optimizer.zero_grad()

        with autocast():
            outputs = model(inputs)
            loss = criterion(outputs, labels)

        scaler.scale(loss).backward()

        scaler.step(optimizer)

        scaler.update()
        running_loss += loss.item()
        if i % 100 == 99:    # print every 100 mini-batches
            print(f'Epoch: {epoch + 1} Iterations: {i + 1} Loss: {running_loss}')
            running_loss = 0.0

now = datetime.now()
current_time = now.strftime("%H:%M:%S")
print("Finish Time =", current_time)

nvidia_smi.nvmlInit()
handle = nvidia_smi.nvmlDeviceGetHandleByIndex(0)
info = nvidia_smi.nvmlDeviceGetMemoryInfo(handle)

print("Total memory:", info.total)
print("Free memory:", info.free)
print("Used memory:", info.used)
print("GPU: ", nvidia_smi.nvmlDeviceGetName(handle))

nvidia_smi.nvmlShutdown()

这次的训练可以看到

GTX 3090

显存占用：9092988928
计算耗时：144 秒

V100

显存占用：8084258816
计算耗时：90 秒

V100 半精度 远高于 GTX 3090 的半精度计算

🎉 半精度训练极大得节约了 GPU 显存，显存占用从之前的 14 GB 左右降低到了 8-9 GB 🎉

sns.barplot(
    x=[
        '3090 FP32',
        'V100 FP32',
        '3090 FP16',
        'V100 FP16'],
    y=[
        14205845504,
        13954187264,
        9092988928,
        8084258816]
).set_title('GPU Memory');

sns.barplot(
    x=[
        '3090 FP32',
        'V100 FP32',
        '3090 FP16',
        'V100 FP16'
    ],
    y=[
        1/114,
        1/122,
        1/144,
        1/90
    ]
).set_title('Speed');

还不会混合精度训练的的同学尽早试一试哦，告别显存吃紧的训练。

原文链接（可以直接运行代码）.

Original: https://blog.csdn.net/qq_39845931/article/details/121671342
Author: Dave 扫地工
Title: 如何使用 PyTorch 进行半精度训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709681/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人工智能知识全面讲解：人脸识别技术

早在40年前，图像识别领域就有很多关于人脸识别的研究。但是在当时，传统算法在普通图像识别中已经很难取得良好的识别效果，更何况还要从人脸中提取更加细微的特征。在很长一段时间里，人脸识…

人工智能 2023年6月16日
0062
100天精通Python（爬虫篇）——第46天：爬虫解析器BeautifulSoup4

文章目录一、BeautifulSoup4库介绍 * 1. 介绍 2. 下载模块 3. 解析库二、上手操作 * 1. 基础操作 2. 对象种类 3. 搜索文档树 4. css选择…

人工智能 2023年7月6日
0043
UE4如何接入科大讯飞的语音识别

本文用的是UE4 4.27测试安卓版测试链接：链接：https://pan.baidu.com/s/1CsdJecfyMTdxNd6XfSECQQ 提取码：m122B站视频连接：…

人工智能 2023年5月27日
0077
十大机器学习算法

初学者应该知道的十大机器学习算法来源：https://builtin.com/data-science/tour-top-10-algorithms-machine-learni…

人工智能 2023年6月16日
0081
CIKM2021 知识图谱、推荐系统相关论文

作者 | Ccxs整理 | NewBeeNLP 知识图谱 Cycle or Minkowski: Which is More Appropriate for Knowledge G…

人工智能 2023年6月1日
0071
图像处理（九）-图片和数组的转换

✨✨✨感谢优秀的你打开了小白的文章“希望在看文章的你今天又进步了一点点，离美好生活更近一步！”🌈 🚀往期回顾图像的基本处理（一）(1条消息) 图像基本处理…

人工智能 2023年5月26日
0077
2022年好用的无线蓝牙耳机，性价比最高的学生党蓝牙耳机推荐

如今的蓝牙耳机已经是我们生活中必不可少的物品，它再也不是简单的听音乐工具了，现在的蓝牙耳机不仅可以听音乐，接听电话，还能唤醒语音助手等功能。但是，目前蓝牙耳机的同质化现象非常严重，…

人工智能 2023年5月25日
00102
使用PCA压缩图像（python实现）

import numpy as np import matplotlib.pyplot as plt import pandas as pd from scipy.io impor…

人工智能 2023年6月18日
0066
【含泪提速！】一文全解相似度算法、跟踪算法在各个AI场景的应用（附代码）

大家好，我是cv君，大家是否为深度学习算法速度感到困扰？本次cv君倾力分享一个优秀的方法，通过相似度+跟踪方案优化速度问题，并提高了检测、分割算法稳定性，附带代码，一起肝起来吧~ …

人工智能 2023年6月25日
0095
知识点练习对话辅助器（简易版）

知识点练习对话辅助器（简易版）一、概述在专业面试的时候经常会有人（比如说我自己=_=）知识点理解的很好，且在平时中也能够比较清晰的讲述出来。但是到了面试的时候，在面试官的注视下…

人工智能 2023年5月25日
0089
基于LSTM的ECG分类用于个人可穿戴设备的连续监测

LSTM-Based ECG Classification for Continuous Monitoring on Personal Wearable Devices原文地址：h…

人工智能 2023年7月1日
0099
opencv学习笔记（二）图像腐蚀和膨胀

1概念1.1 腐蚀跟膨胀是最基本的形态学运算1.2 腐蚀跟膨胀是对图像的白色的部分（亮光部分）进行操作1.3 腐蚀是对亮光部分进行腐蚀拥有比原图更小的亮光部分1.4 膨胀是对亮光…

人工智能 2023年7月20日
0056
Ubuntu18.04下USB摄像头运行和标定

1.安装usb_cam功能包 sudo apt-get install ros-melodic-usb-cam 2.启动摄像头 roslaunch usb_cam usb_cam-…

人工智能 2023年6月17日
00178
李沐精读GNN论文摘要

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档李沐精读GNN论文”A Gentle Introduction to Graph Neural Net…

人工智能 2023年7月14日
0039
Redis之实现优惠券高并发秒杀下单

Redis之实现优惠券高并发秒杀下单实现逻辑如图：此方法高并发情况下会出现超库存的问题，可使用乐观锁解决，乐观锁使用场景是更新的时候一：解决乐观锁方法一：加版本号，如图所示：二：…

人工智能 2023年6月26日
0083
机器学习方法的基本分类

目录 1、监督学习（supervised learning） 2、无监督学习（unsupervised learning） 3、强化学习（reinforcement learnin…

人工智能 2023年7月1日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

如何使用 PyTorch 进行半精度训练

; 实验： 混合精度训练对比 (GTX 3090 VS TESLA V100-SXM2)

下载数据集

以下两个包如果自己环境没有的同学请去掉注释运行

定义 PyTorch 的 Dataset

创建 PyTorch 的 Dataloader

生成随机的样本看一看

创建模型、优化器、损失函数

GTX 3090

V100

实验一 GTX 3090 VS V100 （单精度）

GTX 3090

V100

实验二 GTX 3090 VS V100 （半精度）

GTX 3090

V100

🎉 半精度训练极大得节约了 GPU 显存，显存占用从之前的 14 GB 左右降低到了 8-9 GB 🎉

大家都在看

; 实验：混合精度训练对比 (GTX 3090 VS TESLA V100-SXM2)