pytorch的多GPU训练的两种方式

2023年7月22日上午4:18 • 人工智能 • 阅读 59

方法一：torch.nn.DataParallel

1. 原理

如下图所示：小朋友一个人做4份作业，假设1份需要60min，共需要240min。

这里的作业就是pytorch中要处理的 data。

与此同时，他也可以先花3min把作业分配给3个同伙，大家一起60min做完。最后他再花3min把作业收起来，一共需要66min。

这个小朋友就是 主GPU。他的过程是： 分发 ->并行运算->结果回收。

这就是pytorch要使用的第一种并行方法： torch.nn.DataParallel

这种方法也称为单进程多GPU训练模式:DP模式，这种并行模式下并行的多卡都是由一个进程进行控制。换句话说，在进行梯度的传播时，是在主GPU上进行的。

采用torch.nn.DataParallel进行多GPU并行训练时，与其搭配的数据读取代码是： torch.utils.data.DataLoader

2. 常用的配套代码如下

train_datasets = customData(train_txt)  #创建dataset
train_dataloaders = torch.utils.data.DataLoader(train_datasets,opt.batch_size,num_workers=train_num_workers,shuffle=True)  #创建dataloader
model = efficientnet_b0(num_classes = opt.num_class)  #创建model
device_list = list(map(int,list(opt.device_id)))
print("Using gpu"," ".join([str(v) for v in device_list]))
device = device_list[0]  #主GPU，也就是分发任务和结果回收的GPU，也是梯度传播更新的GPU
model = torch.nn.DataParallel(model,device_ids=device_list)
model.to(device)

for data in train_dataloaders:
   model.train(True)
   inputs, labels = data
   inputs = Variable(inputs.to(device))  #将数据放到主要GPU
   labels = Variable(labels.to(device))

3. 优缺点

优点：配置起来非常方便
缺点：GPU负载不均衡，主GPU的负载很大，而其他GPU的负载很少

方法二： torch.distributed

1. 代码说明

这个方法本来是用于多机器多卡（多节点多卡）训练的，但是也可以用于单机多卡（即将节点数设置为1）训练。

初始化的代码如下，这个一定要写在最前面。

from torch.utils.data.distributed import DistributedSampler
torch.distributed.init_process_group(backend="nccl")

这里给出一个简单的demo.py作为说明：

import torch
import torch.nn as nn
from torch.autograd import Variable
from torch.utils.data import Dataset, DataLoader
import os
from torch.utils.data.distributed import DistributedSampler
1) 初始化
torch.distributed.init_process_group(backend="nccl")

input_size = 5
output_size = 2
batch_size = 30
data_size = 90

2） 配置每个进程的gpu
local_rank = torch.distributed.get_rank()
print('local_rank',local_rank)
torch.cuda.set_device(local_rank)
device = torch.device("cuda", local_rank)

class RandomDataset(Dataset):
    def __init__(self, size, length):
        self.len = length
        self.data = torch.randn(length, size).to('cuda')

    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return self.len

dataset = RandomDataset(input_size, data_size)
3）使用DistributedSampler
rand_loader = DataLoader(dataset=dataset,
                         batch_size=batch_size,
                         sampler=DistributedSampler(dataset))

class Model(nn.Module):
    def __init__(self, input_size, output_size):
        super(Model, self).__init__()
        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):
        output = self.fc(input)
        print("  In Model: input size", input.size(),
              "output size", output.size())
        return output

model = Model(input_size, output_size)

4) 封装之前要把模型移到对应的gpu
model.to(device)

if torch.cuda.device_count() > 1:
    print("Let's use", torch.cuda.device_count(), "GPUs!")
    # 5) 封装
    model = torch.nn.parallel.DistributedDataParallel(model,
                                                      device_ids=[local_rank],
                                                      output_device=local_rank)

for data in rand_loader:
    if torch.cuda.is_available():
        input_var = data
    else:
        input_var = data

    output = model(input_var)
    print("Outside: input size", input_var.size(), "output_size", output.size())

（1）启动方式：在torch.distributed当中提供了一个用于启动的程序torch.distributed.launch，此帮助程序可用于为每个节点启动多个进程以进行分布式训练，它在每个训练节点上产生多个分布式训练进程。

（2）启动命令：

CUDA_VISIBLE_DEVICES=1,2,3,4 python -m torch.distributed.launch --nproc_per_node=2 torch_ddp.py

这里需要说明一下参数：

CUDA_VISIBLE_DEVICES：设置我们可用的GPU的id
torch.distributed.launch：用于启动多节点多GPU的训练
nproc_per_node：表示设置的 进程数量， 一般情况设置为可用的GPU数量，即有多少个可用的GPU就设置多少个进程。
local rank：关于这个参数的意义，我们将在后面的情形中进行说明。

（3）一些情形的说明：

*情形1：直接运行上述的命令

运行的结果如下：

local_rank 1
local_rank 0
Let's use 4 GPUs!

Let's use 4 GPUs!

  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([15, 5]) output_size torch.Size([15, 2])
  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([15, 5]) output_size torch.Size([15, 2])

可以看到local rank的输出为0和1，其数量与我们设置的nproc_per_node是一样的，与我们设置的可用GPU的数量是无关的。这里就要说明一下local rank的意义。

local rank：表示的是 当前的进程在当前节点的编号，因为我们设置了2个进程，因此进程的编号就是0和1
在很多博客中都直接说明local_rank等于进程内的GPU编号，这种说法实际上是不准确的。 这个编号并不是GPU的编号！！

在使用启动命令时，torch.distributed.launch工具会默认地根据nproc_per_node传入local_rank参数，之后再通过下面的代码可以得到local_rank.

local_rank = torch.distributed.get_rank()

因为是默认传入参数local_rank，所以还可以这么写，其输出与torch.distributed.get_rank()相同

import argparse
parser = argparse.ArgumentParser()
注意这个参数，必须要以这种形式指定，即使代码中不使用。因为 launch 工具默认传递该参数
parser.add_argument("--local_rank", type=int)
args = parser.parse_args()

local_rank = args.local_rank
print('local_rank',args.local_rank)

*情形2：将nproc_per_node设置为4，即将进程数设置为可用的GPU数

运行结果如下：

local_rank 2
local_rank 3
local_rank 1
local_rank 0
Let's use 4 GPUs!

Let's use 4 GPUs!

Let's use 4 GPUs!

Let's use 4 GPUs!

  In Model: input size torch.Size([23, 5]) output size torch.Size([23, 2])
Outside: input size torch.Size([23, 5]) output_size torch.Size([23, 2])
  In Model: input size torch.Size([23, 5]) output size torch.Size([23, 2])
Outside: input size torch.Size([23, 5]) output_size torch.Size([23, 2])
  In Model: input size torch.Size([23, 5]) output size torch.Size([23, 2])
Outside: input size torch.Size([23, 5]) output_size torch.Size([23, 2])
  In Model: input size torch.Size([23, 5]) output size torch.Size([23, 2])
Outside: input size torch.Size([23, 5]) output_size torch.Size([23, 2])

可以看到，此时的local_rank共有4个，与进程数相同。并且我们设置的可用GPU的id是1，2，3，4，而local_rank的输出为0，1，2，3，可见local_rank并不是GPU的编号。

虽然在代码中模型并行的device_ids设置为local_rank，而local_rank为0，1，2，3，但是实际上还是采用可用的GPU：1，2，3，4。可以通过nvidia-smi来查看，PID为86478，86479，86480，864782。

model = torch.nn.parallel.DistributedDataParallel(model,
                                             device_ids=[local_rank],
                                             output_device=local_rank)

*情形3：将nproc_per_node设置为4，但是不设置可用的GPU ID

python -m torch.distributed.launch --nproc_per_node=4 ddp.py

此时我们再使用nvidia-smi来查看GPU的使用情况，如下。可以看到此时使用的GPU就是local rank的id。相比于情形2，我们可以总结：

当没有设置可用的GPU ID时，所采用的GPU id就等于local rank的id。 本质上是将进程的编号作为GPU编号使用，因此local_rank等于进程的编号这个定义是不变的。
当设置可用的GPU ID，所采用的GPU id就等于GPU id。

*情形4：将nproc_per_node设置为5，即超出了可以用的GPU数

输出结果如下，可以看到是报错的，因为进程数超出了可以用的GPU数量

local_rank 3
local_rank 2
local_rank 4
local_rank 1
local_rank 0
THCudaCheck FAIL file=/pytorch/torch/csrc/cuda/Module.cpp line=59 error=101 : invalid device ordinal
Traceback (most recent call last):
  File "ddp.py", line 18, in <module>
    torch.cuda.set_device(local_rank)
  File "/home/yckj3822/anaconda3/lib/python3.6/site-packages/torch/cuda/__init__.py", line 281, in set_device
    torch._C._cuda_setDevice(device)
RuntimeError: cuda runtime error (101) : invalid device ordinal at /pytorch/torch/csrc/cuda/Module.cpp:59</module>

Original: https://blog.csdn.net/Mr_health/article/details/122822483
Author: Mr_health
Title: pytorch的多GPU训练的两种方式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708422/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【自动驾驶-感知-红绿灯】红绿灯识别知识点

红绿灯识别是自动驾驶中最为基础的功能，识别方法主要有两种，一种基于视觉图像识别，一种基于v2x。 v2x，即通过红绿灯自己实时发送信号状态，再由车辆低延迟接收信号。该方法要对红绿灯…

人工智能 2023年6月2日
00304
猿创征文｜时间序列分析算法之二次指数平滑法和三次指数平滑法详解+Python代码实现

二次指数平滑法(Holt’s linear trend method) 1.定义 2.公式二次指数平滑值： Original: https://blog.csdn.n…

人工智能 2023年6月15日
0079
Yolov5的安装配置及实现目标检测

本文内容：本文主要介绍anaconda下yolov5的安装配置方法，以及如何实现目标检测。目录一、yolov5的下载安装（一）环境配置（二）下载yolov5 二、yolov…

人工智能 2023年7月12日
0079
Pytorch的nn.Conv2d（）参数详解

nn.Conv2d()的使用、形参与隐藏的权重参数二维卷积应该是最常用的卷积方式了，在Pytorch的nn模块中，封装了nn.Conv2d()类作为二维卷积的实现。使用方法和普通…

人工智能 2023年7月22日
0065
Informer源码分析

首先是数据准备阶段的入口函数，位于Exp_Informer类的train函数内 train_data, train_loader = self._get_data(flag = ‘…

人工智能 2023年6月15日
0069
R语言Welch方差分析（Welch’s ANOVA）实战：Welch方差分析是典型的单因素方差分析的一种替代方法，当方差相等的假设被违反时我们无法使用单因素方差分析，这时候Welch’s出来救场了

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月30日
0081
【2023最新版】Spring Cloud面试题总结（35道题含答案解析）

文章目录1、什么是Spring Cloud？2、使用Spring Cloud有什么优势？3、服务注册和发现是什么意思？Spring Cloud如何实现？4、负载平衡的意义什么？5、…

人工智能 2023年6月30日
00118
以《简单易懂》的语言带你搞懂逻辑回归算法【附Python代码详解】机器学习系列之逻辑回归篇

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我或者我的数据分析专栏，里面有许多优质的文章跟大家…

人工智能 2023年6月16日
0074
UE4碰撞射线检测2

UE4内置的函数：UWorld::LineTraceSingleByChannel 该线轨迹将光线射入空间，并根据选定的轨迹通道进行碰撞 void AFirstPawn::line…

人工智能 2023年6月29日
0079
【PAT甲级 – C++题解】1048 Find Coins

✍个人博客：https://blog.csdn.net/Newin2020?spm=1011.2415.3001.5343📚专栏地址：PAT题解集合📝原题地址：题目详情 &#821…

人工智能 2023年6月27日
0075
回声状态网络Mnist分类

实验软件：Matlab2018a 第一部分 Mnist手写数字体的下载第二部分 MATLAB主程序(main.m) 利用回声状态网络，实现对MNIST手写数字体的识别，采用one…

人工智能 2023年7月2日
00100
自然语言处理（七）：注意卷积神经网络的简单问题回答

论文名称：Simple Question Answering by Attentive Convolutional Neural Network论文地址：https://arxiv…

人工智能 2023年6月10日
00105
从调校到共同研发 vivo与联发科共创天玑9200之王

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0079
期货因子分析(四)

目录回顾代码 * 分析结果总结期待回顾期货因子分析(三) 因子分析 factor analysis (六) ：用因子分析法进行综合评价因子分析在股票市场中的应用多…

人工智能 2023年7月9日
0077
Pytorch 之torch.nn初探第1关：torch.nn.Module

神经网络可以使用 torch.nn包构建。它提供了几乎所有与神经网络相关的功能，例如：线性图层 nn.Linear， nn.Bilinear 卷积层 nn.Conv1d， nn….

人工智能 2023年7月22日
0062
非线性最小二乘问题的高斯-牛顿算法

@非线性最小二乘问题的高斯-牛顿算法非线性最小二乘与高斯-牛顿算法开始做这个东西还是因为学校里的一次课程设计任务，找遍了全网好像也没有特别好用的，于是就自己写了一个。仅供参考。…

人工智能 2023年6月18日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31