pytorch使用GPU

2023年6月23日上午8:28 • 人工智能 • 阅读 88

文章目录

*
–
+ 1.查看GPU状态
+ 2.指定GPU
+ 3.张量与GPU
+ 4.神经网络指定GPU设备运行
+ 5.多GPU训练
+
* 5.1 模型并行
* 5.2 数据并行
* 5.3 简单版数据并行

1.查看GPU状态


!nvidia-smi

一个GPU一共16130M显存，0号GPU已使用3446M显存，一般GPU的利用率低于50%，往往这个模型可能有问题，或者batch_size太小。
pytorch使用GPU

本机CUDA版本，在安装驱动时应该注意选择对应版本的驱动。

2.指定GPU

import torch
from torch import nn

torch.device('gpu'), torch.cuda.device('cuda'), torch.cuda.device('cuda:1')

指定计算设备为GPU，使用多个GPU，本代码指定了第0号和第1号GPU设备

torch.cuda.device_count()

查询GPU的数量

def try_gpu(i=0):
    """如果存在，则返回gpu(i)，否则返回cpu()"""
    if torch.cuda.device_count() >= i + 1:
        return torch.device(f'cuda:{i}')
    return torch.device('cpu')

def try_all_gpus():
    """返回所有可用的GPU，如果没有GPU，则返回[cpu(),]"""
    devices = [torch.device(f'cuda:{i}')
             for i in range(torch.cuda.device_count())]
    return devices if devices else [torch.device('cpu')]

try_gpu(), try_gpu(10), try_all_gpus()

3.张量与GPU

两个在不在同一个GPU的张量需要将这两个张量放在同一个GPU上运算，否则会发生异常。


Y = torch.rand(2, 3, device=try_gpu(1))

Z = X.cuda(1)
print(X)
print(Z)

tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:0')
tensor([[1., 1., 1.],
        [1., 1., 1.]], device='cuda:1')

4.神经网络指定GPU设备运行

net = nn.Sequential(nn.Linear(3, 1))
net = net.to(device=try_gpu(2))

net1 = nn.Sequential(nn.Linear(3, 1))
net1 = net1.to(device=try_gpu(3))

确认模型参数存储在同一个GPU上。

net[0].weight.data.device

小结：

当显存不够时，可以将模型参数变小，降低模型层数，还可以将数据预处理等部分在CPU运行，在数据输入模型之前再把数据放到GPU中，进行前向计算反向传播。
当GPU性能提升不明显时，可能是GPU配置没有成功，或者是数据在CPU和GPU之间移动太频繁，batch_size等。

5.多GPU训练

5.1 模型并行

方法一： 在多个GPU之间拆分网络
比如将网络模型的前半部分和后半部分放在两块不同的GPU上运算，两个部分的数据可跨GPU传输。
局限：层之间计算的工作负载不能正确匹配的时候，还有层之间的接口需要大量的数据传输的时候（例如：激活值和梯度，数据量可能会超出GPU总线的带宽），除非存在框架或操作系统本身支持将多个GPU连接在一起，否则不建议这种方法。

方法二：拆分层内的工作

; 5.2 数据并行

将小批量分成n块，每个GPU拿到完整参数计算一块数据的梯度。

%matplotlib inline
import torch
from torch import nn
from torch.nn import functional as F
from d2l import torch as d2l

scale = 0.01
W1 = torch.randn(size=(20, 1, 3, 3)) * scale
b1 = torch.zeros(20)
W2 = torch.randn(size=(50, 20, 5, 5)) * scale
b2 = torch.zeros(50)
W3 = torch.randn(size=(800, 128)) * scale
b3 = torch.zeros(128)
W4 = torch.randn(size=(128, 10)) * scale
b4 = torch.zeros(10)
params = [W1, b1, W2, b2, W3, b3, W4, b4]

def lenet(X, params):
    h1_conv = F.conv2d(input=X, weight=params[0], bias=params[1])
    h1_activation = F.relu(h1_conv)
    h1 = F.avg_pool2d(input=h1_activation, kernel_size=(2, 2), stride=(2, 2))
    h2_conv = F.conv2d(input=h1, weight=params[2], bias=params[3])
    h2_activation = F.relu(h2_conv)
    h2 = F.avg_pool2d(input=h2_activation, kernel_size=(2, 2), stride=(2, 2))
    h2 = h2.reshape(h2.shape[0], -1)
    h3_linear = torch.mm(h2, params[4]) + params[5]
    h3 = F.relu(h3_linear)
    y_hat = torch.mm(h3, params[6]) + params[7]
    return y_hat

loss = nn.CrossEntropyLoss(reduction='none')

def get_params(params, device):
    new_params = [p.to(device) for p in params]
    for p in new_params:
        p.requires_grad_()
    return new_params

new_params = get_params(params, d2l.try_gpu(0))
print('b1 权重:', new_params[1])
print('b1 梯度:', new_params[1].grad)

输出

b1 权重: tensor([0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.],
       device='cuda:0', requires_grad=True)
b1 梯度: None

由于还没有进行任何计算，因此权重参数的梯度仍然为零。假设现在有一个向量分布在多个GPU上，下面的 allreduce函数将所有向量相加，并将结果广播给所有GPU。请注意，我们需要将数据复制到累积结果的设备，才能使函数正常工作。

def allreduce(data):

    for i in range(1, len(data)):
        data[0][:] += data[i].to(data[0].device)

    for i in range(1, len(data)):
        data[i][:] = data[0].to(data[i].device)

data = [torch.ones((1, 2), device=d2l.try_gpu(i)) * (i + 1) for i in range(2)]
print('allreduce之前：\n', data[0], '\n', data[1])
allreduce(data)
print('allreduce之后：\n', data[0], '\n', data[1])

allreduce之前：
 tensor([[1., 1.]], device='cuda:0')
 tensor([[2., 2.]], device='cuda:1')
allreduce之后：
 tensor([[3., 3.]], device='cuda:0')
 tensor([[3., 3.]], device='cuda:1')

将一个小批量数据集均匀地分布在多个GPU上

data = torch.arange(20).reshape(4, 5)
devices = [torch.device('cuda:0'), torch.device('cuda:1')]
split = nn.parallel.scatter(data, devices)
print('input :', data)
print('load into', devices)
print('output:', split)

同时拆分数据和标签的split_batch函数


def split_batch(X, y, devices):
    """将X和y拆分到多个设备上"""
    assert X.shape[0] == y.shape[0]
    return (nn.parallel.scatter(X, devices),
            nn.parallel.scatter(y, devices))

模型训练
看起来是串行运行的，但是如果框架在背后能帮我们做并发运行的话，还是并发运行的。

def train_batch(X, y, device_params, devices, lr):

    X_shards, y_shards = split_batch(X, y, devices)

    ls = [loss(lenet(X_shard, device_W), y_shard).sum()
          for X_shard, y_shard, device_W in zip(
              X_shards, y_shards, device_params)]
    for l in ls:
        l.backward()

    with torch.no_grad():
        for i in range(len(device_params[0])):
            allreduce(
                [device_params[c][i].grad for c in range(len(devices))])

    for param in device_params:
        d2l.sgd(param, lr, X.shape[0])

def train(num_gpus, batch_size, lr):
    train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
    devices = [d2l.try_gpu(i) for i in range(num_gpus)]

    device_params = [get_params(params, d) for d in devices]
    num_epochs = 10
    animator = d2l.Animator('epoch', 'test acc', xlim=[1, num_epochs])
    timer = d2l.Timer()
    for epoch in range(num_epochs):
        timer.start()
        for X, y in train_iter:

            train_batch(X, y, device_params, devices, lr)
            torch.cuda.synchronize()
        timer.stop()

        animator.add(epoch + 1, (d2l.evaluate_accuracy_gpu(
            lambda x: lenet(x, device_params[0]), test_iter, devices[0]),))
    print(f'测试精度：{animator.Y[0][-1]:.2f}，{timer.avg():.1f}秒/轮，'
          f'在{str(devices)}')


train(num_gpus=1, batch_size=256, lr=0.2)

测试精度：0.82，2.7秒/轮，在[device(type='cuda', index=0)]

train(num_gpus=2, batch_size=256, lr=0.2)

测试精度：0.81，2.8秒/轮，在[device(type='cuda', index=0), device(type='cuda', index=1)]

当增加GPU并行数量时，精度和速度可能不会增加，或者不会增加很多甚至会减少，为什么呢。一方面是GPU增加了，但是batch_size没有增加，反而每个GPU处理的样本数减少到了原来的一半，batch_size减少，GPU效率变低，每个GPU性能没有完全发挥，因此精度和速度可能会变低。为了缓解这一现象，将每个GPU的batch_size放大一倍，但是结果可能也不会很好，再将学习率发大1.5倍，结果稍有好转。

train(num_gpus=2, batch_size=256*2, lr=0.2*1.5)

但是这样精度和速度没有比一个GPU的情况好很多，老师总结的原因是pytorch这样裸手写的方式对并行加速的优化不够好，第二个可能是lenet网络性能不够好。

5.3 简单版数据并行

import torch
from torch import nn
from d2l import torch as d2l

def resnet18(num_classes, in_channels=1):
    """稍加修改的ResNet-18模型"""
    def resnet_block(in_channels, out_channels, num_residuals,
                     first_block=False):
        blk = []
        for i in range(num_residuals):
            if i == 0 and not first_block:
                blk.append(d2l.Residual(in_channels, out_channels,
                                        use_1x1conv=True, strides=2))
            else:
                blk.append(d2l.Residual(out_channels, out_channels))
        return nn.Sequential(*blk)

    net = nn.Sequential(
        nn.Conv2d(in_channels, 64, kernel_size=3, stride=1, padding=1),
        nn.BatchNorm2d(64),
        nn.ReLU())
    net.add_module("resnet_block1", resnet_block(
        64, 64, 2, first_block=True))
    net.add_module("resnet_block2", resnet_block(64, 128, 2))
    net.add_module("resnet_block3", resnet_block(128, 256, 2))
    net.add_module("resnet_block4", resnet_block(256, 512, 2))
    net.add_module("global_avg_pool", nn.AdaptiveAvgPool2d((1,1)))
    net.add_module("fc", nn.Sequential(nn.Flatten(),
                                       nn.Linear(512, num_classes)))
    return net

net = resnet18(10)

devices = d2l.try_all_gpus()

def train(net, num_gpus, batch_size, lr):
    train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
    devices = [d2l.try_gpu(i) for i in range(num_gpus)]
    def init_weights(m):
        if type(m) in [nn.Linear, nn.Conv2d]:
            nn.init.normal_(m.weight, std=0.01)
    net.apply(init_weights)

    net = nn.DataParallel(net, device_ids=devices)
    trainer = torch.optim.SGD(net.parameters(), lr)
    loss = nn.CrossEntropyLoss()
    timer, num_epochs = d2l.Timer(), 10
    animator = d2l.Animator('epoch', 'test acc', xlim=[1, num_epochs])
    for epoch in range(num_epochs):
        net.train()
        timer.start()
        for X, y in train_iter:
            trainer.zero_grad()
            X, y = X.to(devices[0]), y.to(devices[0])
            l = loss(net(X), y)
            l.backward()
            trainer.step()
        timer.stop()
        animator.add(epoch + 1, (d2l.evaluate_accuracy_gpu(net, test_iter),))
    print(f'测试精度：{animator.Y[0][-1]:.2f}，{timer.avg():.1f}秒/轮，'
          f'在{str(devices)}')

train(net, num_gpus=1, batch_size=256, lr=0.1)

Original: https://blog.csdn.net/qq_37431083/article/details/124194923
Author: 紫色银杏树
Title: pytorch使用GPU

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/646967/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大白话理解LSTM神经网络（附实例讲解）

前言本文章为个人学习笔记整理，所学习的内容来自b站up主@老弓的学习日记，附有实例讲解。归类长短期记忆神经网络（LSTM）是一种特殊的循环神经网络(RNN)。原始的RNN在训…

人工智能 2023年7月12日
0063
Educoder 机器学习决策树使用之使用决策树预测隐形眼镜类型

任务描述相关知识如何处理隐形眼镜数据集编程要求测试说明任务描述本关任务：编写一个例子讲解决策树如何预测患者需要佩戴的隐形眼镜类型。使用小数据集，我们就可以利用决策树学到…

人工智能 2023年6月16日
00103
深度学习（3）：不同分类模型的评价指标（F1、Recall、P）

一、引入我们在训练模型的过程中，需要用未知的数据集（为被训练过的）送入训练好的模型进行验证，来检测该模型是否适用于该项目。哪该如何来进行判断呢？这个就需要评价指标了。模型的评价指…

人工智能 2023年6月15日
0092
RCNN、Fast RCNN、Faster RCNN、SPPNet对比

RCNN、Fast RCNN、Faster RCNN、SPPNet对比皆是two-stage ，基于 region proposal 的RCNN系列目标检测时间轴：RCNN (2…

人工智能 2023年7月11日
0066
开放信息抽取(OIE)系统（七）– 开放信息抽取系统资源、应用与中文实战

开放信息抽取(OIE)系统（七）– 开放信息抽取系统资源、应用与中文实战目录一.开放信息抽取系统应用二.中文开放信息抽取系统资源三.中文开放信息抽取系统实践四…

人工智能 2023年6月1日
00107
数据分析，主成分分析例题

已知协方差矩阵求X的各主成分以及主成分的贡献率 ; 主成分分析原理：找出几个综合变量来代替原来众多的变量，使这些综合变量能尽可能地代表原来变量的信息量，且彼此之间互不相关统计方…

人工智能 2023年7月15日
0060
ros(21):visualization_msgs::Marker基本形状Basic Shapes 基本操作ADD DELETE（c++）教程

1 创建工作空间先看一下有哪些文件：（请忽略压缩包） meng@meng:~/ideas/ros_ws$ tree . └── src ├── beginner_tutorial…

人工智能 2023年6月2日
00105
如何将Python文件生成bat脚本，点击bat自动运行Python脚本

前言本文给大家介绍一个新知识，记得get！！！相信很多有做过爬虫项目的同学，都或多或少遇见过这样的一个需求。将你写的python爬虫脚本，生成一个bat文件或者exe文件，再…

人工智能 2023年6月29日
00102
知识图谱构建技术

知识图谱的构建技术包括知识抽取、知识融合、知识加工和知识更新等。图1 知识图谱构建技术流程图 1.1 知识抽取知识抽取就是自动化或半自动化的从原始数据中获得实体、关系及属性等可…

人工智能 2023年7月28日
0096
扩散模型原理和pytorch代码实现初学资料汇总

1.扩散模型和分数匹配模型的资源和论文的汇总 https://github.com/heejkoo/Awesome-Diffusion-Models 是一个github网站 2. …

人工智能 2023年7月25日
0051
pd.get_dummies的使用和疑惑解答

pd.get_dummies的使用参考pandas官网 pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_n…

人工智能 2023年6月19日
00113
Bert模型（一）安装及问题解决（基本每一步都有问题）

Bert模型其实并不是很新鲜的，只是跟着朱老师做项目，所以老师让我们对此了解一下。之前有安装过Anaconda和Python，但以前也是问题频发，只是糊弄过去了事，如今再次使用自是…

人工智能 2023年5月31日
00164
【读书笔记】《利用Python进行数据分析》第2版_第九章绘图与可视化：matplotlib和seaborn入门

关注matplotlib和以它为基础的库seaborn底层绘图在Jupyter notebook中使用交互式绘图，执行以下语句 %matplotlib notebook 9.1 …

人工智能 2023年7月17日
0069
Python｜excel表格数据一键转json格式小工具｜支持xlsx、xls格式转json｜【源码+解析】

背景最近在使用 JavaScript编写一些浏览器 RPA脚本，脚本使用过程中遇到一些问题，脚本使用的数据往往存放在 excel表，但运行时只能读取 json数据，导致频繁人工 …

人工智能 2023年7月30日
0048
python 操作mysql制作一个超市管理系统

导言：该项目制作了两个端口，管理员端和顾客用户端，管理员端实现了对数据库中的数据表进行访问和增删改查操作，数据可长期保存，并展示出来，方便超市管理员对超市商品的管理。顾客端实现了…

人工智能 2023年7月30日
0046
python：yolo5使用

目录一、下载yolo5 二、安装必要依赖三、安装pytorch 四、打标图片制作数据集 * 4.1 导入图片 4.2 开始打标 4.3 添加标签 4.4 进行打标 4.5 导出…

人工智能 2023年7月22日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31