tf2 一机多卡训练

2023年5月25日上午3:18 • 人工智能 • 阅读 91

文章目录

前言
镜像分布式策略 MirroredStrategy
实现代码
成功运行

前言

基于docker，使用两个GPU训练自定义模型(Keras子类)。

镜像分布式策略 MirroredStrategy

分布式策略有很多，这里只介绍一种，方便快速上手，实践证明一机多卡可行
其它分布式策略详见：https://blog.csdn.net/u010099177/article/details/106074932

tf.distribute.MirroredStrategy 支持在 单机多GPU上的同步分布式训练。 它在每个GPU设备上创建一个副本. 模型中的每个变量都将在所有副本之间进行镜像。这些变量一起形成一个称为MirroredVariable的概念上的变量。通过应用 相同的更新，这些变量彼此保持同步。

高效的归约算法用于在设备之间传递变量更新。全归约通过对不同设备上的张量相加进行聚合, 并使他们在所有设备上可用。这是一种融合算法，非常有效，可以大大减少同步的开销。根据设备之间可用的通信类型，有许多归约算法和实现可用，默认使用NVIDIA NCCL。您可以从我们提供的其他选项中进行选择，也可以自己编写。

这是创建 MirroredStrategy 最简单的方法：

strategy = tf.distribute.MirroredStrategy()

这会创建一个 MirroredStrategy 实例，将会使用TensorFlow所有可见的GPU, 使用NCCL进行跨设备通信。

如果您只想使用计算机上的某些GPU，可以这样做：

strategy = tf.distribute.MirroredStrategy(devices=["/gpu:0", "/gpu:1"])

我们已经将 tf.distribute.Strategy 集成到 tf.keras 中。 tf.keras 是一个构建和训练模型的高级API。通过集成到 tf.keras 后端, 用Keras训练框架写的程序可以无缝进行分布式训练。

您需要对代码进行以下更改：

[En]

You need to make the following changes to the code:

创建一个 tf.distribute.Strategy 实例
将Keras模型的创建和编译过程挪到 strategy.scope中
支持各种类型的Keras模型：顺序模型、函数式模型和子类模型

下面是一个非常简单的Keras模型示例：

strategy = tf.distribute.MirroredStrategy()
with strategy.scope():
  model = tf.keras.Sequential([tf.keras.layers.Dense(1, input_shape=(1,))])
  model.compile(loss='mse', optimizer='sgd')

只需要将你的 模型创建部分、 编译部分放到 strategy.scope()里即可

实现代码

关键代码如下，使用0卡和1卡：

callbacks = [tf.keras.callbacks.EarlyStopping(monitor='val_loss', min_delta=1e-8, patience=0, verbose=2)]

opt = optimizers.SGD(learning_rate=0.001, )

strategy = tf.distribute.MirroredStrategy(devices=["/gpu:0", "/gpu:1"])
with strategy.scope():

    model = FCINN(dense_feature_columns, sparse_feature_columns, len(dense_features), hidden_units=(512, 256, 128), activation='relu', dropout=(0.3, 0.2, 0.2),
                  k_vector=8, w_reg=0.01, v_reg=0.01, mode='inner',
                  filters=[16, 18, 22, 24], kernel_with=[7, 7, 7, 7], dnn_maps=[3, 3, 3, 3], pooling_width=[2, 2, 2, 2]
                  )

    model.compile(
        optimizer=opt,
        loss='binary_crossentropy',
        metrics=['AUC', 'Precision', 'Recall', 'accuracy']
    )

model.fit(
    train_dataset,
    validation_data=val_dataset,
    epochs=2,
    verbose=2,
    callbacks=callbacks,
)

docker run -d --gpus '"device=0,1"' \
    --rm -it --name ctr_tf_tmp \
    -v /data/wangguisen/ctr_note/new_thought:/ad_ctr/new_thought \
    -v /data/wangguisen/ctr_note/data:/ad_ctr/data \
    ad_ctr:3.0 \
    sh -c 'python3 -u /ad_ctr/new_thought/moreGPU.py 1>>/ad_ctr/new_thought/log/moreGPU.log 2>>/ad_ctr/new_thought/log/moreGPU.err'

成功运行

查看使用率和内存占用情况，显示一台机器和两个卡运行成功。

[En]

Looking at the utilization rate and memory footprint, it shows that one machine and two cards are running successfully.

一机单卡：

一机多卡：

参考：

docker指定使用某几张显卡：
https://blog.csdn.net/qq_21768483/article/details/115204043

tf2 Dataset使用：
https://blog.csdn.net/u012513618/article/details/109671774

使用 TensorFlow 2.0 进行分布式训练：
https://blog.csdn.net/u010099177/article/details/106074932

https://www.cnblogs.com/xiximayou/p/12690709.html

Original: https://blog.csdn.net/qq_42363032/article/details/122880645
Author: WGS.
Title: tf2 一机多卡训练

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511822/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV之 BGR、GRAY、HSV色彩空间&色彩通道专题【Open_CV系列（三）】

文章目录 1.色彩空间 * 1.1 BGR色彩空间 1.2 GRAY色彩空间 1.3 HSV色彩空间 1.4 空间转换 – 1.4.1 BGR 转 GRAY 1.4.2…

人工智能 2023年7月4日
0094
使用conda配置tensorflow环境

目录 * – 前置条件： – 操作步骤： – + 1.创建虚拟环境 + 2.激活虚拟环境 + 3.安装tensorflow + 4.配置pych…

人工智能 2023年5月25日
0090
opencv-python 实现角点检测和棋盘角点检测

作者：RayChiu_Labloy版权声明：著作权归作者所有，商业转载请联系作者获得授权，非商业转载请注明出处目录利用goodFeaturesToTrack()角点检测: 利用…

人工智能 2023年6月18日
0088
为了摸鱼，我开发了一个工具网站

🏡 博客首页：派大星⛳️ 欢迎关注 🐳 点赞 🎒 收藏 ✏️ 留言🎢 本文由派大星原创编撰🚧 系列专栏：《开源专栏》🎈 本系列主要输出作者自创的开源项目🔗 作品：www.jso…

人工智能 2023年7月31日
0079
【Tableau自学笔记】第二篇——新冠疫情下美国死亡人数可视化图表

1.获取数据数据来源为：data.world 2.整理数据检查数据并对数据重命名隐藏不需要的字段 3.绘制图表（1）地图由于只绘制美国各州数据，则在绘制地图时直接选择&#…

人工智能 2023年6月11日
0079
Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

目录一、原文摘要二、为什么提出SSA-GAN 三、SSA-GAN * 3.1、文本编码器 3.2、SSACN 块 – 3.2.1、上采样块 3.2.2、掩码预测器 …

人工智能 2023年7月28日
0071
关于目标检测中bounding box编码和解码时weight参数的理解

关于目标检测中的Bounding box回归原理网上已经有很多解释的文章了，但是为了更好的阐述我的问题，一开始我还是先简单的过一下边框回归的基本原理，然后解释我在看源码时遇到的一点…

人工智能 2023年7月12日
0055
SLAM多传感器融合调研

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、松耦合 * 1.DEMO 2.V-LOAM 3.Visual-Inertial-Laser 4…

人工智能 2023年7月28日
0063
音频信号处理基础知识

语音信号处理基础知识 1.均值 1.1.均值公式定义 x ‾ = x 1 + x 2 + ⋯ + x n n = ∑ j = 1 n x j n \overline{x} = \f…

人工智能 2023年5月27日
0064
知识图谱简介

知识图谱 (Knowledge Graphs, KGs) 已成为组织世界结构化知识的一种引人注目的抽象，并作为一种整合从多个数据源中提取的信息的方式。知识图谱已经开始在表示使用自…

人工智能 2023年6月24日
0086
安装注册使用gitlab-runner

1，官网下载gitlab-runner 指路下载gitlab-runner注意：一个项目使用一个gitlab-runner，不同的项目需要注册多个gitlab-runner注册时…

人工智能 2023年6月27日
0094
基于opencv的svm方法手写数字识别（python）

目录环境配置写在前面：三个程序 * 第一个程序：训练第二个程序：图像预处理 – 1.二值化 2.去除小联通域（即噪点） 3.roi提取 4.将图片压缩为28*2…

人工智能 2023年7月18日
0083
YOLOv5的anchor设定

前言 yolo算法作为one-stage领域的佼佼者，采用anchor-based的方法进行目标检测，使用不同尺度的anchor直接回归目标框并一次性输出目标框的位置和类别置信度。…

人工智能 2023年5月26日
0083
《异常检测——从经典算法到深度学习》17 基于 VAE-LSTM 混合模型的时间异常检测

《异常检测——从经典算法到深度学习》 0 概论 1 基于隔离森林的异常检测算法 2 基于LOF的异常检测算法 3 基于One-Class SVM的异常检测算法 4 基于高斯概率密度…

人工智能 2023年6月16日
0068
机器学习——基于R的svm练习

步骤 1. 数据预处理 2. 建模 * 1. linear 2. polynomial 3. radial basis 4. sigmoid 3. 模型选择 4. 特征选择 5. …

人工智能 2023年6月19日
00130
Pandas模块（学习笔记）

Pyrhon数据分析基础：Pandas模块安装在命令提示符中，选择以管理员身份运行使用 pip install pandas 再使用 pip list 查看有没有此软件包信息…

人工智能 2023年7月18日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

tf2 一机多卡训练

文章目录

大家都在看