大规模深度学习框架 DeepSpeed 使用指南

2023年5月23日下午4:27 • 人工智能 • 阅读 89

最常见的深度学习框架应该是TensorFlow、Pytorch、Keras，但是这些框架在面向大规模模型的时候都不是很方便。

比如Pytorch的分布式并行计算框架（Distributed Data Parallel，简称DDP），它也仅仅是能将数据并行，放到各个GPU的模型上进行训练。

也就是说，DDP的应用场景在你的模型大小大于显卡显存大小时，它就无法使用了，除非你自己再将模型参数拆散分散到各个GPU上。

今天要给大家介绍的DeepSpeed，它就能实现这个拆散功能，它通过将模型参数拆散分布到各个GPU上，以实现大型模型的计算，弥补了DDP的缺点，非常方便，这也就意味着我们能用更少的GPU训练更大的模型，而且不受限于显存。

DeepSpeed入门并不简单，尽管是微软开源的框架，文档却写的一般，缺少条理性，也没有从零到一的使用示例。下面我就简单介绍一下怎么使用DeepSpeed这个框架。

1.准备

开始之前，你要确保Python和pip已经成功安装在电脑上，如果没有，可以访问这篇文章：进行安装。

(可选1)如果你用Python的目的是数据分析，可以直接安装Anaconda：，它内置了Python和pip.

(可选2)此外，推荐大家用VSCode编辑器，它有许多的优点：。

请选择以下任一种方式输入命令安装依赖：
1. Windows 环境打开 Cmd (开始-运行-CMD)。
2. MacOS 环境打开 Terminal (command+空格输入Terminal)。
3. 如果你用的是 VSCode编辑器或 Pycharm，可以直接使用界面下方的Terminal.

pip install deepspeed

此外，你还需要下载 Pytorch，在官网选择自己对应的系统版本和环境，按照指示安装即可：

https://pytorch.org/get-started/locally/

2.使用 DeepSpeed

使用DeepSpeed其实和写一个pytorch模型只有部分区别，一开始的流程是一样的。

2.1 载入数据集：

import torch
import torchvision
import torchvision.transforms as transforms

trainset = torchvision.datasets.CIFAR10(root='./data',
                                        train=True,
                                        download=True,
                                        transform=transform)
trainloader = torch.utils.data.DataLoader(trainset,
                                          batch_size=16,
                                          shuffle=True,
                                          num_workers=2)
testset = torchvision.datasets.CIFAR10(root='./data',
                                       train=False,
                                       download=True,
                                       transform=transform)
testloader = torch.utils.data.DataLoader(testset,
                                         batch_size=4,
                                         shuffle=False,
                                         num_workers=2)

2.2 编写模型：

import torch.nn as nn
import torch.nn.functional as F

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

net = Net()
criterion = nn.CrossEntropyLoss()

在这里，我编写了一个非常简单的测试模型。

[En]

Here I wrote a very simple model for testing.

2.3 初始化Deepspeed

DeepSpeed 通过输入参数来启动训练，因此需要使用argparse解析参数：

import argparse

def add_argument():
    parser = argparse.ArgumentParser(description='CIFAR')
    parser.add_argument('-b',
                        '--batch_size',
                        default=32,
                        type=int,
                        help='mini-batch size (default: 32)')
    parser.add_argument('-e',
                        '--epochs',
                        default=30,
                        type=int,
                        help='number of total epochs (default: 30)')
    parser.add_argument('--local_rank',
                        type=int,
                        default=-1,
                        help='local rank passed from distributed launcher')

    parser.add_argument('--log-interval',
                        type=int,
                        default=2000,
                        help="output logging information at a given interval")

    parser = deepspeed.add_config_arguments(parser)
    args = parser.parse_args()
    return args

此外，模型初始化的时候除了参数，还需要model及其parameters，还有训练集：

args = add_argument()
net = Net()
parameters = filter(lambda p: p.requires_grad, net.parameters())
model_engine, optimizer, trainloader, __ = deepspeed.initialize(
    args=args, model=net, model_parameters=parameters, training_data=trainset)

2.4 训练逻辑

下面的部分和我们平时训练模型是几乎一样的代码，请注意 local_rank 是你不需要管的参数，在后面启动模型训练的时候，DeepSpeed会自动给这个参数赋值。

for epoch in range(2):
    running_loss = 0.0
    for i, data in enumerate(trainloader):
        inputs, labels = data[0].to(model_engine.local_rank), data[1].to(
            model_engine.local_rank)
        outputs = model_engine(inputs)
        loss = criterion(outputs, labels)
        model_engine.backward(loss)
        model_engine.step()

        # print statistics
        running_loss += loss.item()
        if i % args.log_interval == (args.log_interval - 1):
            print('[%d, %5d] loss: %.3f' % (epoch + 1, i + 1, running_loss / args.log_interval))
            running_loss = 0.0

2.5 测试逻辑

模型测试和模型训练的逻辑是相似的：

[En]

The logic of model testing and model training is similar:

correct = 0
total = 0
with torch.no_grad():
    for data in testloader:
        images, labels = data
        outputs = net(images.to(model_engine.local_rank))
        _, predicted = torch.max(outputs.data, 1)
        total += labels.size(0)
        correct += (predicted == labels.to(
            model_engine.local_rank)).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' %
      (100 * correct / total))

2.6 编写模型参数

在当前目录下新建一个 config.json 里面写好我们的调优器、训练batch等参数：

{
   "train_batch_size": 4,
   "steps_per_print": 2000,
   "optimizer": {
     "type": "Adam",
     "params": {
       "lr": 0.001,
       "betas": [
         0.8,
         0.999
       ],
       "eps": 1e-8,
       "weight_decay": 3e-7
     }
   },
   "scheduler": {
     "type": "WarmupLR",
     "params": {
       "warmup_min_lr": 0,
       "warmup_max_lr": 0.001,
       "warmup_num_steps": 1000
     }
   },
   "wall_clock_breakdown": false
 }

完整的开发流程就结束了，可以看到其实和我们平时使用pytorch开发模型的区别不大，就是在初始化的时候使用 DeepSpeed，并以输入参数的形式初始化。

完整代码可以在Python实用宝典后台回复 Deepspeed下载。

3. 测试代码

现在让我们测试一下上面的代码是否工作正常。

[En]

Now let’s test whether the code above is working properly.

在这里，我们需要用环境变量控制使用的GPU，比如我的机器有10张GPU，我只使用6, 7, 8, 9号GPU，输入命令：

export CUDA_VISIBLE_DEVICES="6,7,8,9"

然后开始运行代码：

deepspeed test.py --deepspeed_config config.json

查看以下输出，表明其运行正常，正在下载数据：

[En]

See the following output shows that it is running normally and is downloading the data:

开始训练的时候 DeepSpeed 通常会打印更多的训练细节供用户监控，包括训练设置、性能统计和损失趋势，效果类似于：

worker-0: [INFO 2020-02-06 20:35:23] 0/24550, SamplesPerSec=1284.4954513975558
worker-0: [INFO 2020-02-06 20:35:23] 0/24600, SamplesPerSec=1284.384033658866
worker-0: [INFO 2020-02-06 20:35:23] 0/24650, SamplesPerSec=1284.4433482972925
worker-0: [INFO 2020-02-06 20:35:23] 0/24700, SamplesPerSec=1284.4664449792422
worker-0: [INFO 2020-02-06 20:35:23] 0/24750, SamplesPerSec=1284.4950124403447
worker-0: [INFO 2020-02-06 20:35:23] 0/24800, SamplesPerSec=1284.4756105952233
worker-0: [INFO 2020-02-06 20:35:24] 0/24850, SamplesPerSec=1284.5251526215386
worker-0: [INFO 2020-02-06 20:35:24] 0/24900, SamplesPerSec=1284.531217073863
worker-0: [INFO 2020-02-06 20:35:24] 0/24950, SamplesPerSec=1284.5125323220368
worker-0: [INFO 2020-02-06 20:35:24] 0/25000, SamplesPerSec=1284.5698818883018
worker-0: Finished Training
worker-0: GroundTruth: cat ship ship plane
worker-0: Predicted: cat car car plane
worker-0: Accuracy of the network on the 10000 test images: 57 %

当你运行到最后，出现了这样的输出，恭喜你，完成了你的第一个 DeepSpeed 模型，可以开始你的大规模训练之路了。

我们的文章到此就结束啦，如果你喜欢今天的Python 实战教程，请持续关注Python实用宝典。

如有疑问，可在公众号后台回复：加群，回答相应的红字验证信息，进入互助群查询。

[En]

If you have any questions, you can reply at the official account background: * add group * , answer the corresponding * scarlet letter verification information * , and enter the mutual aid group for inquiry.

原创并非易事。我希望你能点击赞扬，支持我在下面继续我的创作。谢谢!

[En]

Originality is not easy. I hope you can click praise and support me to continue my creation below. Thank you!

点击下方阅读原文可获得更好的阅读体验

Python实用宝典 (pythondict.com)
不只是一个宝典
欢迎关注公众号：Python实用宝典

Original: https://blog.csdn.net/u010751000/article/details/123516433
Author: Python实用宝典
Title: 大规模深度学习框架 DeepSpeed 使用指南

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496438/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Windows网络与通信程序设计实验四：基于WSAEventSelect模型的通信仿真

文章目录 Windows网络与通信程序设计实验四：基于WSAEventSelect模型的通信仿真 * 1. WSAEventSelect模型的相关函数： – 1.1 W…

人工智能 2023年6月27日
0088
复旦提出ObjectFormer，收录CVPR 2022！图像篡改检测新工作！

点击下方卡片，关注” CVer“公众号 AI/CV重磅干货，第一时间送达 Part I. 文章简介本文中，复旦大学以人为本人工智能研究中心提出了 Obj…

人工智能 2023年6月24日
0075
强化学习之stable_baseline3详细说明和各项功能的使用

本文基于官方文档的基础上，把其中的重要部分整合和翻译，并整理成容易理解的顺序。其中蕴含有大量使用案例，方便大家理解和查看。官方文档：https://stable-baseline…

人工智能 2023年7月20日
0061
智能车中的PID控制

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月10日
0072
全卷积网络（FCN）实战：使用FCN实现语义分割

全卷积网络（FCN）实战：使用FCN实现语义分割 FCN对图像进行像素级的分类，从而解决了语义级别的图像分割（semantic segmentation）问题。与经典的CNN在卷积…

人工智能 2023年5月26日
0091
n-gram语言模型LM

感谢阅读，笔者能力有限，有错误请指正！为什么要加入语音模型？对于连续的语音识别，可能会有数万个单词，解码过程复杂，识别结果有很多组合，仅使用声学模型是不够的，需要引入语言模型来…

人工智能 2023年5月25日
0067
使用Anaconda安装tensorflow,keras(Windows)

主要记载一下在windows上安装tensorflow遇到的问题及安装步骤。不要在原来的环境上安装，因为会重新安装一套库如numpy等，会导致下载多个版本。 1. Anaconda…

人工智能 2023年5月26日
0066
【知识图谱】【实践工具】【Windows】 – Protege – 介绍以及安装（一）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0077
解决报错RuntimeError: CUDA out of memory

文章目录一、问题描述二、解决方法 Reference 一、问题描述 (work2) andy@gpu-machine:~/deepFM_CTR_beat/model_train…

人工智能 2023年7月22日
0052
IOT设备情况数据分析

共建网络世界共创数字未来携手构建网络空间命运共同体——2022世界互联网大会主题文章目录前言一、IOT设备关注问题 * （一）设备SN和MAC的赋值情况（二）设备的激活…

人工智能 2023年6月28日
0077
【人工智能】人脸识别系统【实验报告与全部代码】（QDU）

《人工智能技术》课程设计基于ResNet、dlib+opencv人脸识别系统指导老师：王伟摘要自建小型数据集，采用Opencv中的级联分类器进行人脸检测，基于ResNet18…

人工智能 2023年7月25日
0063
tensorflow详细安装过程

我电脑安装的python是3.7.4的，所以python如果版本不一样的话（不是3.7的），下边的内容不建议完全参考，可以适当参考。主要是注意很多numpy和models与你安装…

人工智能 2023年5月26日
00157
机器学习——3.回归与聚类算法

目录线性回归应用场景 what？线性关系线性模型线性回归的损失和优化原理损失函数优化算法梯度下降线性回归API 案例：波士顿房价预测回归性能评估拓展—关于优化…

人工智能 2023年6月18日
0068
数字图像处理第六章——彩色图像处理

目录引言一、彩色基础二、彩色模型 2.1 RGB彩色模型 2.2 CMY和CMYK彩色模型 2.3 HSI彩色模型三、伪彩色图像处理 3.1 灰度分层 3.2 灰度到彩色的…

人工智能 2023年7月28日
0068
【深度学习】使用d2l包和相关环境配置的一些血泪心得

目录一引言 * 写给: 以下: 二关于anaconda的配置 * 1 anaconda的安装过程 2 d2l包和pytorch包的下载 – 1 创建新环境 2 添…

人工智能 2023年7月30日
0074
NumPy数据分析基础：ndarray数组运算基本操作及切片索引迭代

实验报告：一、实验目的和要求本次实验的主题为” Numpy_数值计算”，旨在让我们掌握 _Numpy 基本_数据结构、 _Numpy 数组_的创建和 _…

人工智能 2023年7月14日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

大规模深度学习框架 DeepSpeed 使用指南

大家都在看