NCCL基本介绍

2023年6月15日下午8:47 • 人工智能 • 阅读 95

前言

调研一下NCCL，所以在这里记录一下。

参考：

NCCL DOCUMENTATION
NCCL Slide
浅谈GPU通信和PCIe P2P DMA

简介

NCCL是NVIDIA的集合通信库，能实现Collective通信和点对点通信，关注与GPU间的通信，而不是一个并行编程框架。

collective communication

AllReduce
Broadcast
Reduce
AllGather
ReduceScatter
此外，因为支持点对点通信，所以也允许scatter（one-to-all）、gather（all-to-one）和all-to-all通信。

支持多种GPU并行

单机多卡
多机多卡
单线程控制多GPU
多线程控制多GPU
多进程控制多GPU

使用C语言的api

可被方便的调用。

底层通信

单机多卡：通过NVLink、PCIe进行通信。
多机多卡：通过socket也就是以太网或者Infiniband进行通信。

; PCIe

在GPU之间的通信中，有两种：

CPU控制的GPU通信：

GPU运算完成后，将数据同步给CPU，由CPU执行MPI通信。都需要通过PCIe。
GPU控制的GPU通信：

GPU独立发起通信，并和网络设备进行同步。但是要消耗部分GPU计算资源来完成通信，并且GPU控制通信的效率可能并不高。同样需要经过PCIe。

以上两种情况应该都需要GPU的数据复制到CPU上作为中转。由于PCIe，GPU之间的通信限制到了 几十Gb/s。

NVLink：

能够提供比PCIe能快的传输速度，可通过桥接器连接两块NVIDIA显卡，实现上百GB/s的传输速度。而NVSwitch可将多个 NVLink 加以整合，实现多NVIDIA显卡互联。

; Infiniband：

是为大规模数据中心设计的网络架构，主要用在高性能计算领域。可以绕过操作系统内核创建应用程序间通信的直接通道，为应用程序提供延迟极低的消息传输服务。带宽高，延时低。带宽已经发展到 400Gb/s。

GPU Direct

参考：
P2P peer-to-peer on NVIDIA RTX 2080Ti vs GTX 1080Ti GPUs
浅析GPU通信技术

P2P：
是解决一个节点内的GPU通信。
简单来说就是实现GPU之间的相互通信，而不需要GPU的数据复制到CPU host memory上作为中转。
如果将 NVLink取代 PCIe，其延迟更低，带宽更高。但是只在内存访问或GPU之间的传输。除非是IBM Power才能连接CPU。
RDMA（Remote Direct Memory Access）：
GPU和网卡可以直接通过PCIe进行数据交互，避免了跨节点通信过程中内存和CPU的参与。从而实现GPU可以直接访问其他节点的GPU内存。

实现既可以通过以太网也可以使用InfiniBand。

Original: https://blog.csdn.net/qq_43219379/article/details/123436895
Author: eecspan
Title: NCCL基本介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617384/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

21句话入门机器学习

这是一篇关于机器学习工具包Scikit-learn的入门级读物。对于程序员来说，机器学习的重要性毋庸赘言。也许你还没有开始，也许曾经失败过，都没有关系，你将在这里找到或者重拾自信。…

人工智能 2023年6月16日
0088
TensorRT多卡并行

这次做TensorRT的多卡并行加速积累了一些经验教训 device: GPUhost：cpuengine: TensorRT优化得到的模型，里面保存有关此模型的所有信息（比如权重…

人工智能 2023年5月28日
0098
前端面试常问整理 —— js部分 1

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月29日
0069
记一次简单的计算机视觉实战

一、前言前几天参考CV Zone – Computer Vision Zone的课程做了一个基于opencv的手势识别项目，使用的是已经训练好的模型，缺少一些乐趣。故…

人工智能 2023年7月12日
0073
全球及中国阻力带行业市场前瞻及投资竞争力分析报告2022-2027年

全球及中国阻力带行业市场前瞻及投资竞争力分析报告2022-2027年详情内容请咨询鸿晟信合研究院！【全新修订】：2022年3月【撰写单位】：鸿晟信合研究网1 阻力带行业概述1.1…

人工智能 2023年7月17日
0051
（三）局部加权线性回归

文章目录前言 1. 局部加权线性回归模型 2. 求解方法 3. 代码实现前言线性回归只能拟合线性曲面（广义的曲面），如果一个回归任务中的输出变量 y ( y ∈ R ) …

人工智能 2023年6月17日
0082
opencv kmeans (C++)

kmeans 函数原型 double cv::kmeans( InputArray data, int K, InputOutputArray bestLabels, TermCr…

人工智能 2023年7月19日
0057
十九、图像的形态学操作

一、图像形态学图像形态学是图像处理学科的一个单独分支学科主要针对的是灰度图和二值图像是由数学的集合论以及数学中的拓扑几何原理发展而来 ; 二、膨胀操作（dilate） 3×3的卷…

人工智能 2023年7月20日
0057
python3.7安装Tensorflow

提示：写完文章后，目录可以自动生成，如何生成右侧的帮助文档。 [En] Tip: after the article is written, the directory can b…

人工智能 2023年5月24日
0065
MongoDB 的安装详细过程

MongoDB的简介简介 1、MongoDB 是为了快速开发互联网 Web 应用而设计的数据库系统。 2、MongoDB 的设计目标是极简、灵活、作为 Web 应用栈的一部分。 …

人工智能 2023年7月29日
0048
TransA: An Adaptive Approach for Knowledge Graph Embedding

题目：TransA: An Adaptive Approach for Knowledge Graph Embedding 1 问题本论文主要关注的问题是，距离的计算方式，一个自…

人工智能 2023年6月10日
0087
连接远程服务器ubuntu利用yolov3训练数据集visdrone2019

连接远程服务器ubuntu利用yolov3训练数据集visdrone2019 趁着服务器在训练数据集，过来写篇帖子记录一下训练过程。不断更新中… 需要的工具本地计算机…

人工智能 2023年7月10日
0050
opencv实现人脸识别(c++实现)

1 说明本文章基于opencv + VS2015 实现人脸检测 2 效果可以直接打开摄像头对人脸进行识别，这些标识框也会跟随你的人脸移动。隐私问题，我这里对图片进行了识别。 ;…

人工智能 2023年7月20日
0061
python中ix用法_Python:Pandas中的ix用法详细解释

终于弄懂了Pandas中ix()函数的用法了。首先生成一个数据框 import numpy as np import pandas as pd df = pd.DataFrame(…

人工智能 2023年7月7日
0073
三年经验前端vue面试记录

router-link和router-view是如何起作用的分析 vue-router中两个重要组件 router-link和 router-view，分别起到导航作用和内容渲染…

人工智能 2023年6月30日
0068
基于深度学习目标检测的人工智能玩游戏

前言利用目标检测算法实现对游戏界面目标位置的获取 PyKeyboard、ctypes实现鼠标键盘的控制实现特定操作一、目标检测算法吧游戏界面截图下来，对特定目标进行Labe…

人工智能 2023年7月12日
00119

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31