记录一下这两天配置NCCL和horovod的过程（原创）

2023年5月24日下午7:09 • 人工智能 • 阅读 73

sudo apt-key adv –fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004 /x86_64/7fa2af80.pub

sudo add-apt-repository “deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/ x86_64/ /”

sudo apt update

(1) 安装最新版

sudo apt install libnccl2 libnccl-dev

(2) 根据自己的版本进行安装

sudo apt install libnccl2=2.4.8-1+cuda10.0 libnccl-dev=2.4.8-1+cuda10.0

git clone https://github.com/NVIDIA/nccl.git
cd nccl

make -j12 src.build BUILDDIR=/home/yourname/nccl CUDA_HOME=/usr/local/cuda NVCC_GENCODE=”-gencode=arch=compute_86, ode=sm_86″

(（NVCC_GENCODE可以不添加，如果不添加该字段，默认会编译支持所有架构；为了加速编译以及降低二进制文件大小，添加该字段，具体comute_86,sm_86是和显卡算力相匹配，具体见：https://developer.nvidia.com/cuda-gpus）)

-j12：表示使用12个核心，使用nproc查看总核心数，根据具体情况进行调整；
BUILDDIR：表示编译后，一些文件的存储路径；默认是nccl/build；当然如果是root用户可以指定到/usr/local/ncc/；
CUDA_HOME：表示CUDA的目录，默认就是/usr/local/cuda，可以不加，如果报错，加上

vim ~/.bashrc

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/home/yourname/nccl/lib

export PATH=$PATH:/home/yourname/nccl/bin

source ~/.bashrc

4.验证NCCL是否安装成功:

git clone https://github.com/NVIDIA/nccl-tests.git
cd nccl-tests
make -j12 CUDA_HOME=/usr/local/cuda
./build/all_reduce_perf -b 8 -e 256M -f 2 -g 4

sudo apt-get install g++
g++ –version 查看g++的版本

ompi_info （or mpiexec –version or mpirun –version or mpicxx –showme:version）

pip install tensorflow-gpu -i https://pypi.tuna.tsinghua.edu.cn/simple

import tensorflow as tf

RuntimeError: module compiled against API version 0xe but this version of numpy is 0xd

解决办法一:

pip install numpy –upgrade(升级Numpy,但我的已经是最新版，无效)

解决办法二：

卸载numpy重新安装（我卸载后再次安装提示我环境有Numpy，这说明刚才环境有两个numpy, import tensorflow as tf，提示No module named ‘numpy.core._multiarray_umath, 升级numpy后成功导入tensorflow）

HOROVOD_GPU_OPERATIONS=NCCL pip install –no-cache-dir horovod

import tensorflow as tf
import horovod.tensorflow as hvd

Original: https://blog.csdn.net/JNash/article/details/122909857
Author: JNash
Title: 记录一下这两天配置NCCL和horovod的过程（原创）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/508961/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

I2C接口及时序

有2条双向串行线，一条数据线SDA，一条时钟线SCL 如果只做master SCL可以只是输出 SDA在PAD上一定是inout pin，当然转为数字信号时可以分为两组 inout…

人工智能 2023年6月27日
0079
基于keras实现resNet-50残差网络

看了Andrew Ng的deeplearning课程，这是其中的一个作业：实现restnetcoursea速度好慢，只能在大佬的博客里找quiz和作业参考吴恩达《深度学习》课后作业…

人工智能 2023年5月26日
00108
机器学习及其MATLAB实现——BP神经网络

Multiply its output delta and input activation to get the gradient of the weight.、 Bring t…

人工智能 2023年7月27日
0049
数仓面试题

数仓面试题问题一：什么叫数据仓库？数据仓库是一个面向主题的、集成的、相对稳定的、反应历史变化的数据集合，它用于支持企业或者组织的决策分析处理数据仓库是为了便于多维分析和多角度展现而…

人工智能 2023年6月1日
0075
OpenCV图像缩放插值之BiCubic双三次插值

转载请注明出处。文章链接：https: 图像缩放算法简介在图像的仿射变换中，很多地方需要用到插值运算，常见的插值运算包括最邻近插值，双线性插值，双三次插值（立体插值），兰索思插…

人工智能 2023年6月19日
0095
【Linux】中安装pip（详细教程）

文章目录前言 * pip下载 pip安装 – 下载/安装setuptools 再次安装pip 验证pip安装是否成功测试使用pip命令安装需要的包相关专栏/文章 …

人工智能 2023年5月30日
0096
机器学习（二）：基于XGBoost的分类与预测

XGBoost介绍 xgboost的安装、参数说明 XGBoost是2016年由华盛顿大学陈天奇老师带领开发的一个可扩展机器学习系统。严格意义上讲XGBoost并不是一种模型，而是…

人工智能 2023年7月2日
0098
基于MATLAB GUI的裂缝检测（识别）系统（支持向量机）

主要内容本文对裂缝检测技术进行了深入研究，并结合裂缝图像的特征，提出了一种基于传统机器学习和图像处理技术的裂缝检测方法，实现裂缝基本参数的计算和显示。内容如下： 1.裂缝图像采集…

人工智能 2023年6月17日
0073
知识图谱 & 图 & 强化学习 & 推荐系统

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月5日
0069
c++opencv批量读图转灰度并修改尺寸

我首先将图片名称改为了1.jpg 2.jpg这样的顺序排列，如果不知道怎么改可以搜索一下如何批量修改文件名称。 include using namespace std;using …

人工智能 2023年6月20日
0083
NLP中的数据增强方法综述

论文链接：A Survey of Data Augmentation Approaches for NLP 摘要由于越来越多的研究在低资源领域、新任务和需要大量训练数据的大规模神…

人工智能 2023年5月27日
0074
YOLOv5-v6.0学习笔记

YOLOv5-v6.0学习笔记 1. 网络结构 * 1.1 Backbone – 1.1.1 Conv模块 1.1.2 Focus模块 1.1.3 CSPDarkNet…

人工智能 2023年5月26日
00139
GraphRNN: Generating Realistic Graphs with Deep Auto-regressive Models 使用深度自回归模型生成现实中的图

原文链接:https://arxiv.org/abs/1802.08773更多细节:Stanford CS224W:Machine Learning with Graphs ; 摘…

人工智能 2023年6月17日
0088
软件智能：aaas系统中顶级概念–原初性事件及标架系

本篇基于上一篇”从存在到因果关系”进一步按发散性思维方式展开，直至找到aaas系统的一个完备的开端。上一篇”从存在到因果关系”篇的…

人工智能 2023年6月1日
0091
Convert Numpy to Tensorflow

We only need to change some grammar used by Tensorflow to replaced Numpy. I collect all ch…

人工智能 2023年5月26日
0079
python取csv某几行_python下pandas库中读取指定行或列数据（excel或csv）

pandas中查找excel或csv表中指定信息行的数据(超详细) 关键！！！！使用loc函数来查找。话不多说，直接演示：有以下名为try.xlsx表： 1.根据index查询…

人工智能 2023年7月7日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

记录一下这两天配置NCCL和horovod的过程（原创）

(1) 安装最新版

(2) 根据自己的版本进行安装

4.验证NCCL是否安装成功:

大家都在看