语义分割分布式训练小结

2023年7月23日下午1:02 • 人工智能 • 阅读 47

借鉴文档
https://blog.csdn.net/weixin_44966641/article/details/121872773
https://zhuanlan.zhihu.com/p/373395654

基础概念
group: 进程组，大部分情况下，ddp的各个进程都是在一个group下面。
world_size：总的进程数量，一般一个进程占用一个GPU。
rank: 当前进程的序号，用于进程之间的通信，rank=0的主机为master节点。
local_rank：当前进程对应的gpu号。

例如：
单机8卡分布式训练，worldsize=8,rank和localrank分别都是0-7。
双机16卡分布式训练，每台机器8卡，worldsize=16，rank编号为0-15，但是localrank还是0-7（对应的是单个gpu上）。

实操第一步

1.1 初始化进程组
rank = int(os.environ[‘RANK’])
local_rank = int(os.environ[‘LOCAL_RANK’])
args.world_size = int(os.environ[‘WORLD_SIZE’])
torch.cuda.set_device(local_rank)
torch.distributed.init_process_group(backend=”nccl”,world_size=args.world_size,rank=rank)

1.2：打印信息太多太乱，只打印主进程信息
增加函数
def setup_for_distributed(is_master):
import builtins as builtin
builtin_print = builtin.print
def print(args,kwargs):
if is_master:
builtin_print (args,**kwargs)
torch.distributed.barrier()
setup_for_distributed(rank==0)

第二步：

修改model和dataloader的设置

from torch.utils.data.distributed import DistributedSampler
from torch.nn.parallel import DistributedDataParallel

模型修改

model = torch.nn.SyncBatchNorm.convert_sync_batchnorm(model)#不转换的话测试时会产生4个模型和结果
model.to(local_rank)
model=torch.nn.parallel.DistributedDataParallel(model)

采样修改

train_sampler = DistributedSampler(train_dataset) # 这个sampler会自动分配数据到各个gpu上
train_loader = DataLoader(train_dataset, batch_size=batch_size, sampler=train_sampler)#如果原始DataLoader里面有shuffle=True的话改成False，应为distributed——sample默认为True,导致冲突。

记得在训练过程中加入set_epoch

for epoch in range(start_epoch,max_epoch):
train_sample = set_epoch(epoch)

第三步：运行：
在运行中需要用torch.distributed.launch为每台主机上创建多进程，例如
python -m torch.distributed.launch –nproc_per_node=8 –use_env trian.py**

Original: https://blog.csdn.net/weixin_42702800/article/details/123877191
Author: 凡士林vasline
Title: 语义分割分布式训练小结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710614/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow中的梯度裁剪是什么，并如何实现

问题：什么是梯度裁剪，如何在TensorFlow中实现梯度裁剪？详细介绍在机器学习和深度学习中，训练模型的过程通常使用梯度下降算法。梯度下降算法通过计算损失函数相对于模型参数的…

人工智能 2023年12月30日
0047
目标检测：RetinaNet算法细节以及代码部分

一、背景目标检测算法一般分为单阶段算法和多阶段算法。多阶段算法特点是：精度高，但速度慢。（Faster-RCNN）单阶段算法特点是：速度快，但精度不如前者。(SSD,Retina…

人工智能 2023年7月12日
0075
超详细OpenCV之python操作

简介 OpenCV是一款由Intel公司俄罗斯团队发起并参与和维护的一个计算机视觉处理开源软件库，支持与计算机视觉和机器学习相关的众多算法，并且正在日益扩展。 OpenCV-Pyt…

人工智能 2023年7月19日
0038
【Python数据分析】利用Python替换EXCEL表格中指定的数据

如何利用Python替换EXCEL表格中指定的数据？今天与大家一起分享一下DataFrame对象的replace（）函数，replace（）函数可EXCEl中的数据内容，其语法格式…

人工智能 2023年7月14日
0063
统计思维：程序员数学之概率统计（第2版）PDF

内容简介 · · · · · · 现实工作中，人们常常需要用数据说话。可是，数据自己不会说话，需要人对它进行分析和挖掘才能找到有价值的信息。概率统计是数据分析的通用语言，是大数据时…

人工智能 2023年7月16日
0081
【机器学习】从房价预测问题看回归算法

关键词：机器学习 / 回归文章目录回归问题是什么生成数据最小二乘法学习一元线性回归模型最小二乘法学习多元线性回归模型梯度下降法学习回归模型回归问题是什么回归问题是除…

人工智能 2023年6月18日
0044
Android本地数据存储（SP、SQLite、Room）

Android本地数据存储常用的有三种方式 1、SP存储，key-value的方式存储在本地的xml文件中，/data/data/xxx.xx/shared_prefs/xxx.x…

人工智能 2023年6月28日
0061
设计一个卷积神经网络模型用于遥感图像的场景分类

遥感图像场景分类是指对遥感图像中场景语义内容标签的映射过程，对高分辨率遥感影像的信息提取及内容理解有着重要的意义。主要的场景分类方法可以分为三类：第一类是基于底层视觉特征的场景分类…

人工智能 2023年7月2日
0058
Scanpy(六)空间转录组数据的分析与可视化

目录 Reading data QC and preprocessing Manifold embedding and clustering based on transcript…

人工智能 2023年6月19日
0089
dsp31段最佳调音图_31段均衡器调整方法详解，音响调音师必备！

31段均衡器调整方法详解，音响调音师必备！ 2018-11-29 X (插图：德国MATCH DSP调音软件主界面) 1、均衡器的调整方法：超低音：20Hz-40Hz，适当时声音…

人工智能 2023年5月27日
0085
Pandas Dataframe 新增加一行

本文介绍一下如何在给Dataframe 新增一行数据。第一种方法：使用df.append 代码如下： import pandas as pdimport xlsxwriter c…

人工智能 2023年7月7日
0077
超标量处理器

一、引言处理器（central process unit,简称CPU）是手机的核心部件，其主要功能是取指令并译码执行。CPU主要包括控制器和运算器两个部件，它对在手机中的所有硬件…

人工智能 2023年6月16日
0081
windows10下深度学习环境搭建（cuda+cudnn+ pytorch+ tensorflow）

conda镜像设置打开anaconda prompt 依次执行 conda config –add channels https://mirrors.bfsu.edu.cn/a…

人工智能 2023年5月25日
0089
网络安全观察报告

攻击类型分析 2018 年，主要的攻击类型 1 为 SYN Flood，UDP Flood，ACK Flood，HTTP Flood，HTTPS Flood，这五大类攻击占了总攻…

人工智能 2023年7月29日
0057
deepsort训练车辆特征参数

deepsort用来跟踪被检测对象。网上常见的yolov5+deepsort，是pytorch版。此版本由ZQPei Github提供，源自nwojke Github ，将其修改为…

人工智能 2023年6月16日
00108
取消打印Tensorflow中的无用信息，如tensorflow:AutoGraph could not transform ＜*＞ and will run it as-is、加载CUDA信息等

取消打印Tensorflow中的无用信息，如WARNING:tensorflow:AutoGraph could not transform bound method BatchN…

人工智能 2023年5月25日
0052

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

语义分割分布式训练小结

修改model和dataloader的设置

模型修改

采样修改

记得在训练过程中加入set_epoch

大家都在看