使用tensorflow Dockerhub 构建image出现的问题

2023年5月25日下午12:04 • 人工智能 • 阅读 131

Bug

使用tensorflow 官网images构造个人image，此处本人使用的是：tensorflow/tensorflow:1.11.0-devel-gpu。运行container ：

import tensorflow

会出现以下问题：

ImportError: libcuda.so.1: cannot open shared object file: No such file or directory

Failed to load the native TensorFlow runtime.

按照tips，以及stackoverflow的说法，找到，然后添加到环境变量即可以。

问题是，在container中输入：

find / -name 'libcuda.so.1'

找不到，所以就难免 motherfxxx， fathersxxx and unclelxxx（口吐芬芳）。

Solution

在 tensorflow dockerhub中 Optional Features有这么一句话：

然后进入nvidia-docker的安装，参考installation guide：

安装过程基本上就是官网的过程：

[En]

The installation process is basically the process of the official website:

step1：
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \
   && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \
   && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list

step2：
curl -s -L https://nvidia.github.io/nvidia-container-runtime/experimental/$distribution/nvidia-container-runtime.list | sudo tee /etc/apt/sources.list.d/nvidia-container-runtime.list

step3：Install the nvidia-docker2
sudo apt-get update
sudo apt-get install -y nvidia-docker2

step4：Restart the Docker daemon
sudo systemctl restart docker

step5：run a test demon
sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果出现下面这个：

+-----------------------------------------------------------------------------+
| NVIDIA-SMI 450.51.06    Driver Version: 450.51.06    CUDA Version: 11.0     |
|-------------------------------+----------------------+----------------------+
| GPU  Name        Persistence-M| Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp  Perf  Pwr:Usage/Cap|         Memory-Usage | GPU-Util  Compute M. |
|                               |                      |               MIG M. |
|===============================+======================+======================|
|   0  Tesla T4            On   | 00000000:00:1E.0 Off |                    0 |
| N/A   34C    P8     9W /  70W |      0MiB / 15109MiB |      0%      Default |
|                               |                      |                  N/A |
+-------------------------------+----------------------+----------------------+

+-----------------------------------------------------------------------------+
| Processes:                                                                  |
|  GPU   GI   CI        PID   Type   Process name                  GPU Memory |
|        ID   ID                                                   Usage      |
|=============================================================================|
|  No running processes found                                                 |
+-----------------------------------------------------------------------------+

那就说明nvidia-docker2安装成功了，但按照loser（这里指我）设定，必然出问题，果然copy step5进去之后，出现了这个：

Error response from daemon: could not select device driver "" with capabilities: [[gpu]]

好在CSDN人才多，似乎只是没有安装好，重新执行，参照这篇文章：

sudo apt-get install -y nvidia-docker2
sudo systemctl restart docker

然后就算是成功安装nvidia-docker2。

所以到底要怎么执行，回到 tensorflow dockerhub，关于running containers中有：

docker run -it --rm --runtime=nvidia image_name:tag python

进入并击打它的头部：

[En]

Enter it and hit it on the head:

docker: Error response from daemon: Unknown runtime specified nvidia.

See 'docker run --help'.

此刻，无语凝噎，查询了一下，下面这几个都说是修改/etc/docker/daemon.json的内容，然后看了眼睛daemon.json文件似乎是有的。这就有点尴尬了。

docker启动容器报错 Unknown runtime specified nvidia. – luwanglin – 博客园

Docker专题——安装nvidia-docker – 知乎

直到看到这篇文章：ubuntu docker-nvidia安装，最后一句话，”需要把 –runtime=nvidia 改成 –gpus all 即可”，试运行了一下

docker run -it --rm --gpus all image_name:tag python

果然可以了，Done！

so why？

其实在nvidia-docker的安装的step5中也算是给出了答案了。根据csdn文章docker学习笔记（9）：nvidia-docker安装、部署与使用的说法，是因为nvidia-docker不同版本造成的问题。

所以还是要看updated的文章。

Acknowledge

此bug仅是本人遇到的问题的描述以及解决之法，适用性存疑。且深感自己就是照猫画虎，只知其然，未能深究其所以然，所以有错误不当之处，还望指出～～～

Refer

Original: https://blog.csdn.net/weixin_45595378/article/details/122328087
Author: weixin_45595378
Title: 使用tensorflow Dockerhub 构建image出现的问题

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/513994/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

李宏毅《机器学习》| 神经网络训练不起来怎么办(下)

目录三、自动调整学习速率(Learning Rate) 1.loss无法再下降时，gradient真的很小吗？ 2.特制化learning rate Root Mean Squa…

人工智能 2023年7月3日
00136
Mmdetection: yolox训练自己的VOC数据集

目录 1.数据集准备 2.创建环境 3.修改配置参数 4.训练 5.测试 6.可视化 * 1.可视化训练过程参数： 2.可视化数据增强处理流程的结果： 3.开启tensorboar…

人工智能 2023年7月28日
0062
数据分析平台重点演示内容梳理

DAP数据分析平台作为公司核心产品，其价值在于能将企业业务数据进行抽取汇聚，建立企业数据仓库，能够真实、准确、清晰、有效地将企业内部及外部行业数据进行可视化展现，帮助企业提升行业…

人工智能 2023年7月16日
0077
中断和异常理论详解，Linux操作系统原理与应用

目录一、中断的相关描述 1、中断是什么 2、为什么要引入中断 3、中断向量 4、外设可屏蔽中断 5、异常及非屏蔽中断 6、中断描述符表 1、中断门（Interrupt Gate）…

人工智能 2023年6月29日
0078
基于Tensorflow和Keras的环境配置

Ancondad的安装 anconda的安装比较简单，找到与自己电脑相对应的版本下载安装即可，安装完打开在未来的编程中，建议项目构建一个环境，这样您就不必担心版本之间的冲突。 [E…

人工智能 2023年5月25日
0076
Deepin20.6 RTX3080 安装显卡驱动510.60.02、CUDA11.6、PyTorch1.11

Deepin20.6 RTX3080 安装显卡驱动510.60.02、CUDA11.6、PyTorch1.11 0 前言 1 准备工作 2 清理环境 3 安装显卡驱动 4 安装Py…

人工智能 2023年7月23日
00200
打通tensorflow版Unet_v1代码

目录知识积累：代码调试：构建Unet网络： 1.Conv2D ModelCheckpoint model.fit() 代码 data.py unet.py 运行…

人工智能 2023年5月23日
00116
【飞桨PaddleSpeech语音技术课程】— 流式语音合成技术揭秘与实践

1 流式语音合成服务的场景与产业应用语音合成（Speech Sysnthesis），又称文本转语音（Text-to-Speech, TTS），指的是将一段文本按照一定需求转化成对…

人工智能 2023年7月28日
00114
empty怎么发音_empty，怎么读，解答要读出来,empty怎么读慢一点，清楚一点！

empty的中文意思、音标、例句及语法单词音标英语音标：[ˈem(p)tɪ] 美语音标：[ˈɛmptɪ] 转载需注明”转自音标网yinbiao5.com/19-16…

人工智能 2023年5月27日
0084
MATLAB SVM寻找最佳参数 c g

老师布置了一个数据挖掘的作业，用SVM做分类。老师原话是：”说SVM训练慢，其实svmtrain的过程是很快的，慢是慢在寻找最佳参数。” 但是寻找最佳参数这…

人工智能 2023年6月16日
0061
机器学习：支持向量机（SVM）

1，概述 1.1，概念支持向量机（SVM）是一类按监督学习方式对数据进行二元分类的广义线性分类器，其决策边界是对学习样本求解的最大边距超平面，可以将问题化为一个求解凸二次规划…

人工智能 2023年6月16日
0097
学习率到底是什么

文章目录一、学习率的定义二、那学习率有什么作用与影响？三、如何调整学习率？一、学习率的定义 Wikipedia给出Learning Rate的定义如下 In machine…

人工智能 2023年7月26日
0057
[渝粤教育] 西南科技大学管理运筹学与系统分析在线考试复习资料

管理运筹学与系统分析——在线考试复习资料一、单选题1.下列那种方法不适用于网络时间的计算( )A.修正分配法B.表格计算法C.图上计算法D.矩阵计算法 2.在运输方案中出现退化现象…

人工智能 2023年7月2日
0096
Neo4j使用日志（一）：安装community版本

Neo4j使用日志（一）：安装community版本使用Neo4j主要是为了进行知识图谱的构建，小白学习第一天，然后就先安装呗。1.jdk的安装2.下载Neo4j3.Neo4j的…

人工智能 2023年6月10日
0076
人工晶状体计算——人工智能算法（R语言）

人工晶状体计算——人工智能算法（R语言） 1. 准备数据 2. 建立模型 2.1 方法1 2.2 方法2 准备数据准备数据Data.xlsx，示例如图 Age AL ACD K1…

人工智能 2023年7月14日
0064
度秘语音引擎app_「资源」9个（实时）语音转文字APP分享（推荐收藏）

” 做会议记录、看无字幕网课再也不用担心，解放双手，提高效率。” 随着语音转文字技术的发展，我们有了更好的方式来记录会议、课堂等。 [En] With th…

人工智能 2023年5月27日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用tensorflow Dockerhub 构建image出现的问题

Bug

Solution

Acknowledge

Refer

大家都在看