【

2023年5月26日下午6:53 • 人工智能 • 阅读 77

一、前言

正如题目所言，最近笔者要跑一个 TensorFlow搭建的模型，等我按照要求将对应版本的 TensorFlow和 Keras安装好之后，发现训练模型巨慢，GPU显存只用了一点点而且利用率一直是零，而且提示找不到一些库，提示如下。

2022-06-10 13:06:14.299058: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcudart.so.10.0'; dlerror: libcudart.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299110: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcublas.so.10.0'; dlerror: libcublas.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299155: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcufft.so.10.0'; dlerror: libcufft.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299198: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcurand.so.10.0'; dlerror: libcurand.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299239: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcusolver.so.10.0'; dlerror: libcusolver.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299281: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcusparse.so.10.0'; dlerror: libcusparse.so.10.0: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299326: I tensorflow/stream_executor/platform/default/dso_loader.cc:53] Could not dlopen library 'libcudnn.so.7'; dlerror: libcudnn.so.7: cannot open shared object file: No such file or directory; LD_LIBRARY_PATH: /usr/local/cuda-10.0/lib64:/usr/local/cuda-10.0/extras/CUPTI/lib64
2022-06-10 13:06:14.299336: W tensorflow/core/common_runtime/gpu/gpu_device.cc:1663] Cannot dlopen some GPU libraries. Skipping registering GPU devices...

2022-06-10 13:06:14.299421: I tensorflow/core/common_runtime/gpu/gpu_device.cc:1181] Device interconnect StreamExecutor with strength 1 edge matrix:

观察提示信息和一些现象，笔者得出结论，是 CUDA和 cuDNN版本没有装合适，因为该程序会去 /usr/local/cuda-10.0/lib64文件夹下找库，但是我就没有装 CUDA 10.0。去网上找了一番资料后，笔者发现果然是 CUDA和 cuDNN的版本问题， TensorFlow版本与 CUDA版本居然也有对应关系，这下让我更加觉得 TensorFlow不好用了。但是这台机器也不是笔者独占的，而且机器上已经有装好的 CUDA 11.2和 cuDNN 8.4.0了，这种情况确实让人抓狂，不过在笔者浏览了浩瀚的因特耐特之后，发现居然有一种多版本CUDA共存和自由切换的操作，现将该技术整理如下。
任务描述： 在一台安装了 CUDA 11.2 和 cuDNN 8.4.0 的机器上安装 CUDA 10.0 和 cuDNN 7.4.1 ，使得两者互不干扰和自由切换。
CUDA和 cuDNN的版本选择参考这篇博客。

二、安装CUDA

查看已有CUDA环境
从官网下载CUDA 10.0的 runfile到服务器上。
安装 CUDA 10.0
执行如下指令

sudo sh cuda_10.0.130_410.48_linux.run

出现协议说明，可以按 q跳过。

- 出现问题Do you accept the previously read EULA?
    - 输入accept+回车，继续安装。

- 出现不支持配置的提醒：You are attempting to install on an unsupported configuration. Do you wish to continue?
    - 输入y，继续安装。

- 出现是否安装显卡驱动的提醒，我们已经装过了：Install NVIDIA Accelerated Graphics Driver for Linux-x86_64 410.48？
    - 输入n，继续安装。

- 出现是否安装CUDA工具包：Install the CUDA 10.0 Toolkit?
    - 输入y，开始安装。

- 出现工具包安装地址：Enter Toolkit Location
    - 回车

- 出现是否添加符号链接，现在已经有一个了，为了不影响现有的CUDA环境，选择否：Do you want to install a symbolic link at /usr/local/cuda?
    - 输入n，继续安装。

- 出现是否安装样例，选择是：Install the CUDA 10.0 Samples?
    - 输入y，继续安装

- 出现安装样例位置，默认即可：Enter CUDA Samples Location
    - 回车

不出意外此时应该安装完成，但如果此时你也出现 Error: unsupported compiler: 9.4.0. Use --override to override this check.报错，我们按照他说的加上 --override选项跳过检查。

执行新的指令，选项和上图一致：

sudo sh cuda_10.0.130_410.48_linux.run --override

安装成功会出现以下提示：

为了不影响现有的CUDA环境，就不修改环境变量了，下文会详细讲述怎么使用新安装的CUDA 10.0。

三、安装cuDNN

根据安装的CUDA工具包版本在官网选择适合版本的cuDNN，本文安装的CUDA版本是10.0，就选择TensorFlow 1.14.0对应的 cuDNN 7.4.1，选择 Local Installer for Linux x86_64 (Tar)。
复制cuDNN库的链接，使用wget下载或者下载到自己电脑之后再传到服务器上。
下载下来之后，文件名是 cudnn-10.0-linux-x64-v7.4.1.5.solitairetheme8，需要重命名一下，改成 cudnn-10.0-linux-x64-v7.4.1.5.tgz：

    mv cudnn-10.0-linux-x64-v7.4.1.5.solitairetheme8 cudnn-10.0-linux-x64-v7.4.1.5.tgz

解压cuDNN文件，并进入解压出的文件夹，拷贝文件到/usr/local/cuda-10.0中。

    tar -xvf cudnn-10.0-linux-x64-v7.4.1.5.tgz
    cd cuda
    sudo cp lib64/* /usr/local/cuda-10.0/lib64/
    sudo cp include/* /usr/local/cuda-10.0/include/
    sudo chmod a+r /usr/local/cuda-10.0/lib64/*
    sudo chmod a+r /usr/local/cuda-10.0/include/*

查看cuDNN版本，指令为 cat /usr/local/cuda-10.0/include/cudnn.h | grep CUDNN_MAJOR -A2。
更新软链接，如果你安装的不是7.4.1记得更新下边命令中的数字。

    cd /usr/local/cuda-10.0/lib64/
    sudo rm -rf libcudnn.so libcudnn.so.7
    sudo ln -s libcudnn.so.7.4.1 libcudnn.so.7
    sudo ln -s libcudnn.so.7 libcudnn.so
    sudo ldconfig -v

最后避免影响到原来的CUDA环境，再执行一下

    source /etc/profile

此时另一个版本的CUDA和cuDNN已经”偷偷”安装好了。但是此时 nvcc -V版本还是11.2，具体怎么实现CUDA版本转换，请看下节。

四、切换CUDA版本

切换到普通用户，查看CUDA版本，可以看到还是 11.2。
下面我们要用到一个脚本。phohenecker大神写的CUDA版本切换脚本：
特此将代码附上：


    set -e

    if [[ "${BASH_SOURCE[0]}" = "${0}" ]]; then
        echo "Please use 'source' to execute switch-cuda.sh!"
        exit 1
    fi

    INSTALL_FOLDER="/usr/local"
    TARGET_VERSION=${1}

    if [[ -z ${TARGET_VERSION} ]]; then
        echo "The following CUDA installations have been found (in '${INSTALL_FOLDER}'):"
        ls -l "${INSTALL_FOLDER}" | egrep -o "cuda-[0-9]+\\.[0-9]+$" | while read -r line; do
            echo "* ${line}"
        done
        set +e
        return

    elif [[ ! -d "${INSTALL_FOLDER}/cuda-${TARGET_VERSION}" ]]; then
        echo "No installation of CUDA ${TARGET_VERSION} has been found!"
        set +e
        return
    fi

    cuda_path="${INSTALL_FOLDER}/cuda-${TARGET_VERSION}"

    path_elements=(${PATH//:/ })
    new_path="${cuda_path}/bin"
    for p in "${path_elements[@]}"; do
        if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
            new_path="${new_path}:${p}"
        fi
    done

    ld_path_elements=(${LD_LIBRARY_PATH//:/ })
    new_ld_path="${cuda_path}/lib64:${cuda_path}/extras/CUPTI/lib64"
    for p in "${ld_path_elements[@]}"; do
        if [[ ! ${p} =~ ^${INSTALL_FOLDER}/cuda ]]; then
            new_ld_path="${new_ld_path}:${p}"
        fi
    done

    export CUDA_HOME="${cuda_path}"
    export CUDA_ROOT="${cuda_path}"
    export LD_LIBRARY_PATH="${new_ld_path}"
    export PATH="${new_path}"

    echo "Switched to CUDA ${TARGET_VERSION}."

    set +e
    return

新建 switch-cuda.sh文件，将上边代码写入；

    vi switch-cuda.sh
    source switch-cuda.sh
    source switch-cuda.sh 10.0

可以看到当执行 source switch-cuda.sh的时候该脚本会扫描所有已安装的CUDA，并列出，用户只需要选择想用的CUDA版本号就可以轻松切换，例如 source switch-cuda.sh 10.0，可以看到上图的 nvcc也是成功切换了版本。
并且该脚本基于 export语句，重启终端后，CUDA环境还是会恢复到默认的11.2，不影响下次使用，无需手动切回CUDA版本，下图为重启终端后的效果。

五、总结

以上就是今天要讲的内容，本文介绍了如何在一台机器上同时安装多个版本的CUDA，并且介绍了一种简便切换CUDA版本的操作。
如果本文能给你带来帮助的话，点个赞鼓励一下作者吧！

六、参考

[1] CUDA工具包：https://developer.nvidia.com/cuda-toolkit-archive
[2] cuDNN库：https://developer.nvidia.com/rdp/cudnn-archive
[3] CUDA切换脚本：https://github.com/phohenecker/switch-cuda
[4] 安装多版本CUDA：https://blog.csdn.net/sinat_30545761/article/details/107709468

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/521272/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

注意力机制（含pytorch代码及各函数详解）

目录 * – 注意力机制 – + * 非参注意力汇聚概述（不需要学习参数） * 参数化注意力机制概述 * 正式系统学习 * – 1.平均汇聚（池…

人工智能 2023年6月17日
0075
如何设计神经网络结构,visio画神经网络结构图

1、如何用visio画卷积神经网络图。图形类似下图所示大概试了一下用visio绘制这个图，除了最左面的变形图片外其余基本可以实现（那个图可以考虑用其它图像处理软件比如Photos…

人工智能 2023年7月28日
0060
使用realsense t265测试svo2.0视觉里程计

毕业三年了，现在是第二份工作，第一份工作已经结束一年半了，这意味着，我有一年半的时间没有搞视觉SLAM相关的东西了，虽然在第二份工作也是做视觉相关的，但是只是用到一些目标识别和跟踪…

人工智能 2023年5月28日
00154
SegNeXt: 重新思考基于卷积注意力的语义分割

GitHub：https://github.com/Visual-Attention-Network/SegNeXtPaper：https://arxiv.org/pdf/2209…

人工智能 2023年7月25日
0063
python装饰器详解

python中的装饰器(decorator)一般采用语法糖的形式，是一种语法格式。比如：@classmethod，@staticmethod，@property，@xxx.sett…

人工智能 2023年7月30日
0060
PINN(Python通过递归神经网络直接实现常微分方程积分)

（1 ）、加载工具包 import pandas as pd #用于数据导入和操作的pandas import numpy as np #用于数据导入和操作的numpy impor…

人工智能 2023年5月26日
00103
因为tensorflow版本问题踩得坑：contrib没找到问题

AttributeError: module ‘tensorflow.compat.v1’ has no attribute ‘contrib&…

人工智能 2023年5月25日
0087
文本识别CRNN模型介绍以及pytorch代码实现

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、CRNN模型介绍 * 1.模型结构 2.CTCLoss beam search 二、使用pyt…

人工智能 2023年7月23日
0053
基于Matlab人脸识别(PCA算法)

摘要随着科技的发展，人类社会的进步，传统身份识别由于容易遗失，容易被破解已不能起到身份识别作用。人们需要更加安全可靠的身份识别技术。而生物特征的独一无二，不易丢失和被复制的特性很…

人工智能 2023年6月23日
0077
使用GPU运行python项目

简单科普：CPU适合串行计算，擅长逻辑控制。GPU擅长并行高强度并行计算，适用于AI算法的训练学习GPU教为侧重于运算，因此GPU常被用于一些深度学习的项目，要想使用GPU来运行深…

人工智能 2023年7月20日
0064
视觉培训3 装甲板识别

OpenCv的HSV颜色空间学习学习的网站虽然我们这张图的方框并不是彩色的，但是以后肯定会遇到彩色的问题所以先学习一下 H——Hue即色相，就是我们平时所说的红、绿，如果你分的…

人工智能 2023年6月18日
0094
Yolov5学习笔记(2)——部署在jetson nano上

本教程系列将从模型训练开始，从0开始带领你部署Yolov5模型到jetson nano上这是本系列的第二部分。 [En] This is the second part of t…

人工智能 2023年5月23日
0080
pytorch accuracy和Loss 的计算

最近学习代码时发现当自己去实现代码的时候对于样本的Loss和accuracy的计算很不理解，看别人的代码也是靠猜测，所以自己去官方文档学习加上自己做了个小实验以及搜索了别人的博客，…

人工智能 2023年7月21日
0075
数据分析中的异常值处理

今天来分享一下数据分析中的异常值处理办法异常值的常见判定方法是：均值±三个标准差，这样的话异常值就只会出现在99.87%的值的范围之外。当然选择三个标准差有点太过保守，有的研究也…

人工智能 2023年7月15日
0079
Pytorch中torch.cat()函数解析

一. torch.cat（）函数解析 1. 函数说明 1.1 官网：torch.cat()，函数定义及参数说明如下图所示：1.2 函数功能函数将两个张量（tensor）按指定维度拼…

人工智能 2023年6月16日
0068
TransGate: Knowledge Graph Embedding with Shared Gate Structure

题目：TransGate: Knowledge Graph Embedding with Shared Gate Structure 1 问题目前的模型，当前的模型通过专注于从越…

人工智能 2023年6月1日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【

目录