Pytorch 并行训练（DP， DDP）的原理和应用

2023年7月22日下午12:33 • 人工智能 • 阅读 73

1. 前言

并行训练可以分为数据并行和模型并行。

模型并行模型并行主要应用于模型相比显存来说更大，一块 device 无法加载的场景，通过把模型切割为几个部分，分别加载到不同的 device 上。比如早期的 AlexNet，当时限于显卡，模型就是分别加载在两块显卡上的。
数据并行这个是日常会应用的比较多的情况。每一个 device 上会加载一份模型，然后把数据分发到每个 device 并行进行计算，加快训练速度。

如果要再细分，又可以分为单机多卡，多机多卡。 这里主要讨论数据并行的单机多卡的情况。

; 2. Pytorch 并行训练

常用的 API 有两个：

torch.nn.DataParallel(DP)
torch.nn.DistributedDataParallel(DDP)

DP 相比 DDP 使用起来更友好（代码少），但是 DDP 支持多机多卡，训练速度更快，而且负载相对要均衡一些。所以优先选用 DDP 吧。

2.1 训练模型的过程

在开始怎么调用并行的接口之前，了解并行的过程是有必要的。首先来看下模型训练的过程。

; 2.2 DP

2.2.1 DP 的计算过程

DP 并行的具体过程可以参考下图两幅图。

上图清晰的表达了 torch.nn.DataParallel 的计算过程。

将 inputs 从主 GPU 分发到所有 GPU 上
将 model 从主 GPU 分发到所有 GPU 上
每个 GPU 分别独立进行前向传播，得到 outputs
将每个 GPU 的 outputs 发回主 GPU
在主 GPU 上，通过 loss function 计算出 loss，对 loss function 求导，求出损失梯度
计算得到的梯度分发到所有 GPU 上
反向传播计算参数梯度
将所有梯度回传到主 GPU，通过梯度更新模型权重
不断重复上面的过程

; 2.2.2 应用

API 如下。

torch.nn.DataParallel(module, device_ids=None, output_device=None, dim=0)

使用非常简单。一句代码就搞定。

net = torch.nn.DataParallel(model, device_ids=[0, 1, 2])

2.3 DDP

2.3.1 DDP 的过程

大体上的过程和 DP 类似，具体可以参考下图。

与 DataParallel 的单进程控制多 GPU 不同，在 distributed 的帮助下，我们只需要编写一份代码，torch 就会自动将其分配给n个进程，分别在 n 个 GPU 上运行。不再有主 GPU，每个 GPU 执行相同的任务。对每个 GPU 的训练都是在自己的进程中进行的。每个进程都从磁盘加载其自己的数据。分布式数据采样器可确保加载的数据在各个进程之间不重叠。损失函数的前向传播和计算在每个 GPU 上独立执行。因此，不需要收集网络输出。在反向传播期间，梯度下降在所有GPU上均被执行，从而确保每个 GPU 在反向传播结束时最终得到平均梯度的相同副本。

; 2.3.2 应用

开始之前需要先熟悉几个概念。

group 即进程组。默认情况下，只有一个组，一个 job 即为一个组，也即一个 world。当需要进行更加精细的通信时，可以通过 new_group 接口，使用 world 的子集，创建新组，用于集体通信等。
world size 表示全局进程个数。如果是多机多卡就表示机器数量，如果是单机多卡就表示 GPU 数量。
rank 表示进程序号，用于进程间通讯，表征进程优先级。rank = 0 的主机为 master 节点。如果是多机多卡就表示对应第几台机器，如果是单机多卡，由于一个进程内就只有一个 GPU，所以 rank 也就表示第几块 GPU。
local_rank 表示进程内，GPU 编号，非显式参数，由 torch.distributed.launch 内部指定。例如，多机多卡中 rank = 3，local_rank = 0 表示第 3 个进程内的第 1 块 GPU。

DDP 的应用流程如下：

在使用 distributed 包的任何其他函数之前，需要使用 init_process_group 初始化进程组，同时初始化 distributed 包。
如果需要进行小组内集体通信，用 new_group 创建子分组
创建分布式并行（ DistributedDataParallel）模型 DDP(model, device_ids=device_ids)
为数据集创建 Sampler
使用启动工具 torch.distributed.launch 在每个主机上执行一次脚本，开始训练
使用 destory_process_group() 销毁进程组

1. &#x6DFB;&#x52A0;&#x53C2;&#x6570;  --local_rank
&#x6BCF;&#x4E2A;&#x8FDB;&#x7A0B;&#x5206;&#x914D;&#x4E00;&#x4E2A; local_rank &#x53C2;&#x6570;&#xFF0C;&#x8868;&#x793A;&#x5F53;&#x524D;&#x8FDB;&#x7A0B;&#x5728;&#x5F53;&#x524D;&#x4E3B;&#x673A;&#x4E0A;&#x7684;&#x7F16;&#x53F7;&#x3002;&#x4F8B;&#x5982;&#xFF1A;rank=2, local_rank=0 &#x8868;&#x793A;&#x7B2C; 3 &#x4E2A;&#x8282;&#x70B9;&#x4E0A;&#x7684;&#x7B2C; 1 &#x4E2A;&#x8FDB;&#x7A0B;&#x3002;
&#x8FD9;&#x4E2A;&#x53C2;&#x6570;&#x662F;torch.distributed.launch&#x4F20;&#x9012;&#x8FC7;&#x6765;&#x7684;&#xFF0C;&#x6211;&#x4EEC;&#x8BBE;&#x7F6E;&#x4F4D;&#x7F6E;&#x53C2;&#x6570;&#x6765;&#x63A5;&#x53D7;&#xFF0C;local_rank&#x4EE3;&#x8868;&#x5F53;&#x524D;&#x7A0B;&#x5E8F;&#x8FDB;&#x7A0B;&#x4F7F;&#x7528;&#x7684;GPU&#x6807;&#x53F7;
parser = argparse.ArgumentParser()
parser.add_argument('--local_rank', default=-1, type=int,
                    help='node rank for distributed training')
args = parser.parse_args()
print(args.local_rank))

2.&#x521D;&#x59CB;&#x5316;&#x4F7F;&#x7528;nccl&#x540E;&#x7AEF;
dist.init_process_group(backend='nccl')
When using a single GPU per process and per
DistributedDataParallel, we need to divide the batch size
ourselves based on the total number of GPUs we have
device_ids=[1,3]
ngpus_per_node=len(device_ids)
args.batch_size = int(args.batch_size / ngpus_per_node)
#ps &#x68C0;&#x67E5;nccl&#x662F;&#x5426;&#x53EF;&#x7528;
#torch.distributed.is_nccl_available ()

3.&#x4F7F;&#x7528;DistributedSampler
#&#x522B;&#x5FD8;&#x4E86;&#x8BBE;&#x7F6E;pin_memory=true
#&#x4F7F;&#x7528; DistributedSampler &#x5BF9;&#x6570;&#x636E;&#x96C6;&#x8FDB;&#x884C;&#x5212;&#x5206;&#x3002;&#x5B83;&#x80FD;&#x5E2E;&#x52A9;&#x6211;&#x4EEC;&#x5C06;&#x6BCF;&#x4E2A; batch &#x5212;&#x5206;&#x6210;&#x51E0;&#x4E2A; partition&#xFF0C;&#x5728;&#x5F53;&#x524D;&#x8FDB;&#x7A0B;&#x4E2D;&#x53EA;&#x9700;&#x8981;&#x83B7;&#x53D6;&#x548C; rank &#x5BF9;&#x5E94;&#x7684;&#x90A3;&#x4E2A; partition &#x8FDB;&#x884C;&#x8BAD;&#x7EC3;

train_dataset = MyDataset(train_filelist, train_labellist, args.sentence_max_size, embedding, word2id)
train_sampler = t.utils.data.distributed.DistributedSampler(train_dataset)
train_dataloader = DataLoader(train_dataset,
                                  pin_memory=true,
                                shuffle=(train_sampler is None),
                                batch_size=args.batch_size,
                                num_workers=args.workers,
                                sampler=train_sampler    )
#DataLoader&#xFF1A;num_workers&#x8FD9;&#x4E2A;&#x53C2;&#x6570;&#x51B3;&#x5B9A;&#x4E86;&#x6709;&#x51E0;&#x4E2A;&#x8FDB;&#x7A0B;&#x6765;&#x5904;&#x7406;data loading&#x3002;0&#x610F;&#x5473;&#x7740;&#x6240;&#x6709;&#x7684;&#x6570;&#x636E;&#x90FD;&#x4F1A;&#x88AB;load&#x8FDB;&#x4E3B;&#x8FDB;&#x7A0B;

#&#x6CE8;&#x610F; testset&#x4E0D;&#x7528;sampler

4.&#x5206;&#x5E03;&#x5F0F;&#x8BAD;&#x7EC3;
#&#x4F7F;&#x7528; DistributedDataParallel &#x5305;&#x88C5;&#x6A21;&#x578B;&#xFF0C;&#x5B83;&#x80FD;&#x5E2E;&#x52A9;&#x6211;&#x4EEC;&#x4E3A;&#x4E0D;&#x540C; GPU &#x4E0A;&#x6C42;&#x5F97;&#x7684;&#x68AF;&#x5EA6;&#x8FDB;&#x884C; all reduce&#xFF08;&#x5373;&#x6C47;&#x603B;&#x4E0D;&#x540C; GPU &#x8BA1;&#x7B97;&#x6240;&#x5F97;&#x7684;&#x68AF;&#x5EA6;&#xFF0C;&#x5E76;&#x540C;&#x6B65;&#x8BA1;&#x7B97;&#x7ED3;&#x679C;&#xFF09;&#x3002;
#all reduce &#x540E;&#x4E0D;&#x540C; GPU &#x4E2D;&#x6A21;&#x578B;&#x7684;&#x68AF;&#x5EA6;&#x5747;&#x4E3A; all reduce &#x4E4B;&#x524D;&#x5404; GPU &#x68AF;&#x5EA6;&#x7684;&#x5747;&#x503C;. &#x6CE8;&#x610F;find_unused_parameters&#x53C2;&#x6570;&#xFF01;

net = textCNN(args,vectors=t.FloatTensor(wvmodel.vectors))
if args.cuda:
    # net.cuda(device_ids[0])
    net.cuda()
if len(device_ids)>1:
    net=torch.nn.parallel.DistributedDataParallel(net,find_unused_parameters=True)

5.&#x6700;&#x540E;&#xFF0C;&#x628A;&#x6570;&#x636E;&#x548C;&#x6A21;&#x578B;&#x52A0;&#x8F7D;&#x5230;&#x5F53;&#x524D;&#x8FDB;&#x7A0B;&#x4F7F;&#x7528;&#x7684; GPU &#x4E2D;&#xFF0C;&#x6B63;&#x5E38;&#x8FDB;&#x884C;&#x6B63;&#x53CD;&#x5411;&#x4F20;&#x64AD;&#xFF1A;
for batch_idx, (data, target) in enumerate(train_loader):
  if args.cuda:
    data, target = data.cuda(), target.cuda()
    output = net(images)
    loss = criterion(output, target)
    ...

    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

6.&#x5728;&#x4F7F;&#x7528;&#x65F6;&#xFF0C;&#x547D;&#x4EE4;&#x884C;&#x8C03;&#x7528; torch.distributed.launch &#x542F;&#x52A8;&#x5668;&#x542F;&#x52A8;&#xFF1A;
#pytorch &#x4E3A;&#x6211;&#x4EEC;&#x63D0;&#x4F9B;&#x4E86; torch.distributed.launch &#x542F;&#x52A8;&#x5668;&#xFF0C;&#x7528;&#x4E8E;&#x5728;&#x547D;&#x4EE4;&#x884C;&#x5206;&#x5E03;&#x5F0F;&#x5730;&#x6267;&#x884C; python &#x6587;&#x4EF6;&#x3002;
#--nproc_per_node&#x53C2;&#x6570;&#x6307;&#x5B9A;&#x4E3A;&#x5F53;&#x524D;&#x4E3B;&#x673A;&#x521B;&#x5EFA;&#x7684;&#x8FDB;&#x7A0B;&#x6570;&#x3002;&#x4E00;&#x822C;&#x8BBE;&#x5B9A;&#x4E3A;=NUM_GPUS_YOU_HAVE&#x5F53;&#x524D;&#x4E3B;&#x673A;&#x7684; GPU &#x6570;&#x91CF;&#xFF0C;&#x6BCF;&#x4E2A;&#x8FDB;&#x7A0B;&#x72EC;&#x7ACB;&#x6267;&#x884C;&#x8BAD;&#x7EC3;&#x811A;&#x672C;&#x3002;
#&#x8FD9;&#x91CC;&#x662F;&#x5355;&#x673A;&#x591A;&#x5361;&#xFF0C;&#x6240;&#x4EE5;node=1&#xFF0C;&#x5C31;&#x662F;&#x4E00;&#x53F0;&#x4E3B;&#x673A;&#xFF0C;&#x4E00;&#x53F0;&#x4E3B;&#x673A;&#x4E0A;--nproc_per_node&#x4E2A;&#x8FDB;&#x7A0B;
CUDA_VISIBLE_DEVICES=0,1,2,3 python -m torch.distributed.launch --nproc_per_node=4 main.py

可以参考如下代码：

DDP1
[DDP2](

3. DP 与 DDP 的区别

3.1 DP 的优势

如果有的话就是简单，一行代码搞定。

3.2 DDP 的优势

1. 每个进程对应一个独立的训练过程，且只对梯度等少量数据进行信息交换。

DDP 在每次迭代中，每个进程具有自己的 optimizer ，并独立完成所有的优化步骤，进程内与一般的训练无异。在各进程梯度计算完成之后，各进程需要将梯度进行汇总平均，然后再由 rank=0 的进程，将其 broadcast 到所有进程。之后，各进程用该梯度来独立的更新参数。而 DP 是梯度汇总到主 GPU ，反向传播更新参数，再广播参数给其他的 GPU。

DDP 中由于各进程中的模型，初始参数一致 (初始时刻进行一次 broadcast)，而每次用于更新参数的梯度也一致，因此，各进程的模型参数始终保持一致。

而在 DP 中，全程维护一个 optimizer，对各 GPU 上梯度进行求和，而在主 GPU 进行参数更新，之后再将模型参数 broadcast 到其他 GPU。

相较于 DP ， DDP传输的数据量更少，因此速度更快，效率更高。

2. 每个进程包含独立的解释器和 GIL。

一般使用的 Python 解释器 CPython：是用 C 语言实现 Pyhon，是目前应用最广泛的解释器。全局锁使 Python 在多线程效能上表现不佳，全局解释器锁（ Global Interpreter Lock）是 Python 用于同步线程的工具，使得任何时刻仅有一个线程在执行。

由于每个进程拥有独立的解释器和 GIL，消除了来自单个 Python 进程中的多个执行线程，模型副本或 GPU 的额外解释器开销和 GIL-thrashing ，因此可以减少解释器和 GIL 使用冲突。这对于严重依赖 Python runtime 的 models 而言，比如说包含 RNN 层或大量小组件的 models 而言，这尤为重要。

参考

Original: https://blog.csdn.net/kuweicai/article/details/120516410
Author: kuweicai
Title: Pytorch 并行训练（DP， DDP）的原理和应用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/709011/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据专家最常使用的 10 大类 Pandas 函数 ⛵

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：http://www.showmeai.tech/tutorials/40📘 本文地址：http://www.showmea…

人工智能 2023年6月4日
0084
零基础学kubernetes（k8s）必看教程，带你10分钟快速实战入门k8s

一、前言作为一个工作十余年，拥有比较丰富的计算机网络运维、主机运维、云计算平台运维、自动化运维开发经验的老鸟，我来说说我当初刚接触Kubernetes时的一些感受以及学习技巧。 …

人工智能 2023年6月19日
0087
IDEA安装ChatGPT插件步骤

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
0042
torchtext 中文语料加载

torchtext 中文语料加载前言数据集准备 torchtext流程 Field TabularDataset BucketIterator 前言因为研究生方向选的是自然语…

人工智能 2023年7月23日
0074
用python 数据分析，有推荐的书籍或资料吗？

Python入门在正式开始学习前，先搞定编程环境问题，如果只是进行数据分析的话，看我下面这篇介绍Jupyter Notebook的就可以了～其他Python开发工具先不了解，环境…

人工智能 2023年7月15日
0052
OpenCv图像梯度——sobel算子(cv2.Sobel())

图像梯度算的是什么？图像梯度计算的是图像变化的速度。对于图像的边缘部分，其灰度值变化较大，梯度值也较大；相反，对于图像中比较平滑的部分，其灰度值变化较小，相应的梯度值也较小。一般…

人工智能 2023年7月19日
0061
Python 如何写入同一Excel的多张Sheet表单

如何用python将数据存入同一个excel文件的多张sheet表单? 使用to_excel()保存表单时发生覆盖: 本想把三个数据表格保存到同一个excel的三个表单，只写了这三…

人工智能 2023年7月7日
0056
爆改YOLOV7的detect.py制作成API接口供其他python程序调用（超低延时）

一、前言 YOLO系列框架凭借其超高的运行流畅度和不俗的准确率，一直被广泛地应用到各个领域。刚刚推出不久的YOLOV7在5 FPS到160 FPS范围内的速度和精度达到了新的高度…

人工智能 2023年6月16日
0091
pd.read_csv/jieba.analyse.set_stop_words

目前网上能找到的方法都是自己做个停用词字典，然后在打印分词结果之前将停用词去掉。#也就是说分词的过程不变，打印时做个集合差运算。text =u’听说你超级喜欢万众掘金小…

人工智能 2023年7月8日
0038
【人工智能】神经网络与深度学习体系（一）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0065
企业内部网络安全四大威胁，如何应对？

如今，网络环境愈发复杂，企业数字化程度也越来越高，加上疫情肆虐，远程办公、异地办公的方式，安全边界肆意拓宽，攻击面倍速增大，使得企业内部安全面临更为复杂的环境。据业内安全专家实践…

人工智能 2023年6月28日
0057
[NLP] 免费中文文本多任务自动辅助标注工具

NLP领域的福利，错过这篇文章，你可能要在黑暗中摸索3，4年！我们在NLP领域主要探索统一、自洽的多任务标注规范，从语义框架出发，将词性、实体识别、问答标注与自动扩充、事件抽取、…

人工智能 2023年5月31日
00104
spss分析方法-聚类分析

聚类分析是根据研究对象的特征，按照一定标准对研究对象进行分类的一种分析方法。下面我们主要从下面四个方面来解说：实际应用理论思想建立模型 *分析结果一、实际应用聚类分析的目…

人工智能 2023年7月18日
0045
yolov5 代码内容解析

目录一、工程目录及所需的配置文件解析二、训练代码详解加载模型优化器数据生成器参数及类别权重 warmup和前向传播损失函数计算准确性和召回率计算 Yolov5 目标…

人工智能 2023年6月23日
0077
基于目标检测的无人机航拍场景下小目标检测实践

无人机变得越来越普及，很多场景中由于客观原因的限制大量采用了无人机，无人机预警、无人机抓怕、无人机劝导等等，无人机逐渐成为复杂场景中不可替代的重要觉得，无人机航拍数据与遥感图像数据…

人工智能 2023年6月25日
00101
pandas中高级应用——jupyter

一、pandas绘图 import numpy as np import pandas as pd import matplotlib.pyplot as plt ts=pd.Se…

人工智能 2023年7月17日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch 并行训练（DP， DDP）的原理和应用

1. 前言

; 2. Pytorch 并行训练

2.1 训练模型的过程

; 2.2 DP

2.2.1 DP 的计算过程

; 2.2.2 应用

2.3 DDP

2.3.1 DDP 的过程

; 2.3.2 应用

3. DP 与 DDP 的区别

3.1 DP 的优势

3.2 DDP 的优势

参考

大家都在看