linux上的tensorflow 2.4.1-gpu c++接口编译并用其运行.pb模型

2023年5月25日上午2:02 • 人工智能 • 阅读 88

System information

OS Platform and Distribution : ( Ubuntu 18.04)
TensorFlow installed from : (source)
TensorFlow version: Tags v2.4.1
Python version: Python 3.7.6
Installed using virtualenv? pip? conda?: conda
Bazel version (if compiling from source): have tried bazel 3.4.0 、 bazel 3.1.0
GCC/Compiler version (if compiling from source): gcc (GCC) 7.4.0
CUDA/cuDNN version: cuda_11.1 , cudnn 8.0.5
GPU model and memory: rtx3060
nvidia-driver version: 460.91
eigen version : eigen-3.3.90

建议搭配：tf2.4.0 、cuda 11.0、cudnn 8.0.5

构建tensorflow的c++接口

bazel：用来自动化构建大型工程的，和make、maven属于同一类工具。
bazel版本需要和tensorflow版本对应

tf2.4 适配的bazel版本为3.1.0

使用sh文件安装bazel，执行bazel version时报错
/usr/local/lib/bazel/bin/bazel-real: cannot execute binary file: Exec format error
改为下载zip后解压安装

wget https://github.com/bazelbuild/bazel/releases/download/3.1.0/bazel-3.1.0-dist.zip
mkdir bazel

unzip -d bazel bazel-3.1.0-dist.zip
cd bazel
bash ./compile.sh
sudo cp output/bazel /usr/local/bin

bazel version

    tf_http_archive(
        name = "com_google_protobuf",
        patch_file = clean_dep("//third_party/protobuf:protobuf.patch"),
        sha256 = "cfcba2df10feec52a84208693937c17a4b5df7775e1635c1e3baffc487b24c9b",
        strip_prefix = "protobuf-3.9.2",
        system_build_file = clean_dep("//third_party/systemlibs:protobuf.BUILD"),
        system_link_files = {
            "//third_party/systemlibs:protobuf.bzl": "protobuf.bzl",
        },
        urls = [
            "https://storage.googleapis.com/mirror.tensorflow.org/github.com/protocolbuffers/protobuf/archive/v3.9.2.zip",
            "https://github.com/protocolbuffers/protobuf/archive/v3.9.2.zip",
        ],
    )

安装步骤

wget https://storage.googleapis.com/mirror.tensorflow.org/github.com/protocolbuffers/protobuf/archive/v3.9.2.zip

unzip v3.9.2.zip
cd protobuf-3.9.2
./autogen.sh
./configure
make
sudo make install

protoc --version

tar -zxvf eigen-3.3.90.tar.gz
cd eigen-3.3.90/
mkdir build
cd build
cmake ..

sudo make
sudo make install

mkdir tensorflow
cd tensorflow
git clone --depth 1 --branch v2.4.1 https://github.com/tensorflow/tensorflow.git

cd tensorflow
./configure
compute capability计算力点进提示给的nvidia官网url中查看

bazel build --config=opt //tensorflow:libtensorflow_cc.so

bazel build --config=opt --config=cuda //tensorflow:libtensorflow_cc.so

编译过程报错
1） ...include/cudnn_backend.h No such file or directory
解决方法：缺失cudnn_backend.h、cudnn_adv_infer.h等文件，下载cudnn压缩包将解压后的文件夹中所有报错中提示缺失的文件重新拷贝到cuda文件夹下。
2）llvm下载报错 Error downloading [https://storage.googleapis.com/mirror.tensorflow.org/github.com/llvm/llvm-project/archive/f402e682d0ef5598eeffc9a21a691b03e602ff58.tar.gz, https://github.com/llvm/llvm-project/archive/f402e682d0ef5598eeffc9a21a691b03e602ff58.tar.gz]
去报错提示中的github地址(我这里是https://github.com/llvm/llvm-project/archive/f402e682d0ef5598eeffc9a21a691b03e602ff58.tar.gz)手动下载llvm-project，
放到任意本地路径下（我的路径 /home/app/llvm-project-f402e682d0ef5598eeffc9a21a691b03e602ff58.tar.gz；
然后修改 tensorflow/tensorflow/workspace.bzl 文件中的llvm下载路径，改为所存的本地路径

LLVM_URLS = [
        "file:///home/app/llvm-project-f402e682d0ef5598eeffc9a21a691b03e602ff58.tar.gz",
        "https://github.com/llvm/llvm-project/archive/{commit}.tar.gz".format(commit = LLVM_COMMIT),
    ]

cd tensorflow/tensorflow/lite/tools/make
./download_dependencies.sh

若网络原因下载失败，可分别手动下载相应文件并解压，下载的文件url见 download_dependencies.sh文件；
将以上下载的文件解压后并按照以上文件名进行命名，统一存放在 tensorflow/tensorflow/lite/tools/make/downloads 文件夹中。

使用tensorflow c++接口运行.pb模型

大概的步骤：

$ cd ~/demo/build
$ cmake ..

$ make
$ ./demo

注: 我的tensorflow 2.4.1编译完成后没有contrib文件夹、没有bazel-genfiles文件夹。
这里采取的是将依赖的文件夹移动到运行项目 demo/目录下，为的是方便后期该项目迁移到其他主机运行时能带着依赖一起迁移。
如果你只在本机运行该项目，那么移动的目的文件夹就是 /usr/local/include/tf/

我移动后的 demo/ 文件夹层级结构：

demo/
    CMakeLists.txt
    build/
        model.pb
    include/
        UseTensorFlowDLL.h
    src/
        main.cpp
    opencv3.4.0/
        bin/
        include/
        lib/
        share/
    tf2/
        bazel-bin/
            external/
            _solib_local/
            tensorflow/
            third_party/
        eigen/
            ..太多这里省略
        lib/
            libtensorflow_cc.so.2
            libtensorflow_framework.so.2
        tensorflow/
            ..省略
        third_party/
            ..省略

其中tf2目录为自己手动创建，tf2/ 下的各个文件夹手动从编译完成的目录下拷贝过来，各文件夹来源：
① bazel-bin/： tensorflow/bazel-bin/ (tensorflow/为编译完成的最终文件夹)
② eigen/ : tensorflow/lite/tools/make/downloads/eigen
③ lib/: 两个文件(拷贝完可能需要重命名)分别来自
tensorflow/bazel-bin/tensorflow/libtensorflow_cc.so.2.4.1 和
tensorflow/bazel-bin/tensorflow/libtensorflow_framework.so.2.4.1
④ tensorflow/ : tensorflow/
⑤ third_party/ : tensorflow/third_party

其中CMakeLists.txt 内容：

cmake needs this line
cmake_minimum_required(VERSION 3.10)

Define project name
project(shufflenetPbLinuxDemo)

find_package(OpenCV REQUIRED)

message(STATUS "OpenCV library status:")
message(STATUS "    config: ${OpenCV_DIR}")
message(STATUS "    version: ${OpenCV_VERSION}")
message(STATUS "    libraries: ${OpenCV_LIBS}")
message(STATUS "    include path: ${OpenCV_INCLUDE_DIRS}")

set(TENSORFLOW_LIBS
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/lib/libtensorflow_cc.so.2
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/lib/libtensorflow_framework.so.2
)
头文件的搜索目录
include_directories(
${CMAKE_CURRENT_SOURCE_DIR}/include
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/bazel-bin
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/tensorflow
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/third-party
        ${CMAKE_CURRENT_SOURCE_DIR}/tf2/eigen
)

Declare the executable target built from your sources
add_executable(shufflenetPbLinuxDemo ${CMAKE_CURRENT_SOURCE_DIR}/src/main.cpp)

Link your application with OpenCV libraries
target_link_libraries(shufflenetPbLinuxDemo PRIVATE ${OpenCV_LIBS}  ${TENSORFLOW_LIBS})

报错及解决办法

正常情况下，pb.h是在编译过程中由protobuf编译生成的，应该存在于 bazel-genfiles/tensorflow/core/framework文件夹下。
.pb.h is a generated file when you build with bazel build. The
.pb.h files should appear under bazel-genfiles folder thereafter.

而我之前用tensorflow2.4.0版本虽然也没生成bazel-genfiles/ ，但没有这个报错，不知道为什么换成tf2.4.1 分支后就报错了。

解决方法：手动用命令挨个将报错中的 proto文件转为pb.h
sudo protoc <protofile> --cpp_out=./ </protofile>
在tensorflow github的相关提问
若执行protoc命令报错 tensorflow/core/framework/xx.proto File not found 即import的文件未找到。可能是执行protoc命令时所处的路径层级不对，在import后跟的路径的层级下重新尝试。

方法：设置环境变量：
sudo gedit /etc/profile
添加: export OpenCV_DIR=/home/workspace/demo/opencv3.4.0
保存退出， source /etc/profile

文件头加入tensorflow定义域：

#include "tensorflow/core/public/session.h"
#include "tensorflow/core/platform/env.h"

如果你的 model.pb为 meta_graph，ReadBinaryProto可能只适用于frozen graph,
因此需要将加载模型方式改为 tensorflow::LoadSavedModel(session_options, run_options, model_path,{tensorflow::kSavedModelTagServe}, &bundle))
LoadSavedModel示例

find . -name "eigen*" -type d
修改CMakeLists.txt 的include_directories 里eigen的路径，换成上面find出来的结果（如果find出来多个路径则可以挨个尝试）。

原因：程序发生了越界访问
1)内存访问越界（数组越界）
2)多线程线程不安全
3)堆栈溢出（使用大的局部变量容易造成栈溢出,因为局部变量都分配在栈上）
扩展：core报错具体原因可以配置操作系统使其生成core文件，用gdb查看core文件结合程序崩溃后的core文件分析bug

最终原因以及解决办法：
升级到tf2.4.1+cuda11.1后报这个错是因为main.cpp最后输出outputs置信度这里的outputs数组越界，


    tensorflow::Status status_run = session->Run(inputs, { out_put_nodes }, {}, &outputs);

    auto confidence_vector = outputs[0].tensor<float, 2>();
    for (int ProposalNum = 0; ProposalNum < maxbatchSize; ProposalNum++) {

        float confidence_float1 = confidence_vector(ProposalNum, 1);
        cout << "the confidence is:" << confidence_float1 << endl;
    }
    return 0;

outputs[0] 越界 是因为session 根本就没有run成功，
(通过在session->Run 之后加上

tensorflow::Status status_run = session->Run(inputs, {out_put_nodes}, {}, &output)
if (!status_run.ok()) {
   std::cout << "ERROR: RUN failed in session run..."  << std::endl;
   std::cout << status_run.ToString() << "\n";

判断出session没有run成功，所以outputs自然是空数组， outputs[0]也就越界访问了)
而session没有run成功的原因在下一个问题中描述。

原因： main.cpp中的 Tensor变量 ShuffleOutputPb:0 和python中生成pb模型的设置的tensor名不一样，修改main.cpp中的变量名。
然后再重新跑，终于 status_run.ok()为True了，但是又报下面的错：

① main.cpp 中的 bundle.session->Run(inputs,{out_put_nodes},{},&outputs);这里直接写inputs，而不是 {{input_name, input}}
因为本项目中已经提前把input_name和resized_tensor都push_back进inputs张量中了。
② OP_REQUIRES failed at conv_ops.cc:Not found: No algorithm worked!

原因：tensorflow官方github的issue中查询这个报错，判断可能是OOM 内存超出，可以在运行时同时 watch -n 0.5 nvidia-smi 看到当memory使用快到达最大容量时，就报错。

c++的解决方法：
在session定义前如果没有设置限制GPU的内存使用，要加上内存限制的相关语句：

    tensorflow::SessionOptions session_options;
    tensorflow::ConfigProto* session_options_config = &session_options.config;

    session_options_config->set_allow_soft_placement(true);
    session_options_config->mutable_gpu_options()->set_per_process_gpu_memory_fraction(0.33);
    session_options_config->mutable_gpu_options()->set_allow_growth(true);

    status = NewSession(session_options, &session);
    status_load = tensorflow::ReadBinaryProto(tensorflow::Env::Default(), "model.pb", &graphdef);
    status_create = session->Create(graphdef);

我的问题是把 session_options_config-> ... 这3行写在了NewSession定义之后了，把这3行设置移到 NewSession定义语句前面就可以了。

问题搜索的网站：
1、tensorflow官方github的 Issues 中搜索报错或问题关键词。
2、和cuda相关的问题搜索 nvidia官网论坛
3、stackoverflow

总结解决问题过程中出现问题的原因和经验：

[En]

Summarize the causes of jams in solving problems and the experience gained:

① 如果报错没有展开详细描述，寻找其是否存在错误log日志，根据错误日志分析原因。
② 明确报错的最初有可能产生位置，而非眉毛胡子一把抓。
③ 同样的代码在别人主机上能运行成功，不代表这份代码或流程就是正确的（可能其中几行逻辑错误，但他人主机上这几行等于注释、不起作用）
关键是先理清思路，然后再开始做。

[En]

The key point is to sort out the train of thought before starting to do it.

Original: https://blog.csdn.net/qq_33936417/article/details/121955645
Author: nolabel
Title: linux上的tensorflow 2.4.1-gpu c++接口编译并用其运行.pb模型

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/511418/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【21天学习挑战赛】GoatGui邀你参加机器学习研讨班

具体活动细节，详见21天学习挑战赛主海报活动页. ; A. 活动介绍 CSDN与每一位学习者同行平台优质专栏作者带队精准学习精选高质量专栏学习资料活动期内限时免费学习此刻开启…

人工智能 2023年5月31日
0071
Opencv 图像处理：数字图像的必会知识

本文已收录于Opencv系列专栏：深入浅出OpenCV ，专栏旨在详解Python版本的Opencv，为计算机视觉的开发与研究打下坚实基础。免费订阅，持续更新。文章目录 * &…

人工智能 2023年7月20日
0060
PyTorch安装成功，但不能使用GPU功能：PyTorch no longer supports this GPU. CUDA error: no kernel image is available

导师配了一个台式机，便着手配置PyTorch环境。根据台式机的显卡驱动(472.12)、CUDA、cuDNN版本安装好PyTorch之后，调用torch.cuda.is_avail…

人工智能 2023年7月21日
0075
OpenCV-Python实战（3）——OpenCV中绘制图形与文本

[ OpenCV_是一款非常强大的计算机视觉库，其 _中_包含了很多功能强大的 _图像处理_和计算机视觉算法。而在这个系列的第三篇文章 _中，我们将重点介绍如何在 OpenCV 中…

人工智能 2023年6月19日
0074
neo4j

添加驱动依赖在pom.xml文件中添加驱动依赖： </p> <p>.driver</p> <p>-java-driver 2….

人工智能 2023年6月1日
0074
tensorflow 2.0减少内存占用：稀疏矩阵输入

文章目录 1.背景 2.稀疏矩阵输入构造 3.稀疏数据模型训练 * 3.1 利用tensorflow中的tf.SparseTensor 3.2 模型的测试的代码 1.背景最近在做…

人工智能 2023年5月26日
00104
【语音识别入门】特征提取（Python完整代码）

1、数字信号处理基础 1.1数字信号处理基础科学和工程中遇到的信号大多是连续的模拟信号，如电压随时间的变化、一天的温度变化等，而计算机智能地处理离散信号，因此必须对这些连续的模拟…

人工智能 2023年5月25日
0064
用RANSAC算法实现干扰严重的直线拟合~

1.说到直线拟合，一般是用最小二乘啦，在opencv里面就是用cv.fitLine来完成，首先简单介绍一下该函数： cv.fitLine(points, distType, par…

人工智能 2023年5月26日
00103
数学建模：整数规划示例模型 (Python 求解)

用 Python 求解整数规划模型只需用 cvxpy 模块在建立变量时指定 integer=True 即可, 即 x=cp.Variable(shape=(),integer=Tr…

人工智能 2023年7月15日
00126
高新技术企业申报时企业提交材料前这些细节

企业申请认定高新技术企业可以享受税收减免、人才引进、上市加分以及几万到几百万不等的资金补贴等优惠政策，对于企业而言，百利而无一害。然而在高新技术企业认定申报过程中，很多人都会遇到…

人工智能 2023年6月28日
0071
Ubuntu安装anaconda + 配置jupyter-hub服务

安装anaconda #打开终端，转&#…

人工智能 2023年5月26日
00116
【ROS进阶】5000字解析如何确定ROS编程中数据类型（消息类型）

文章目录一、已有ROS仿真器，自行编写控制器节点 * 1、利用rostopic list明确仿真器可用的topic 2、rostopic info 找到对应话题的类型 3、ros…

人工智能 2023年6月2日
0092
neo4基本使用教程

一、使用前说明 neo4j使用需要配置java环境检查就是： java -version neo4j下载网址： https://neo4j.com/download-center…

人工智能 2023年6月1日
00127
分类模型：朴素贝叶斯原理及实现

朴素贝叶斯（Naive Bayes）算法是基于贝叶斯定理和特征条件独立性假设（在给定样本类别的前提下，任意特征的取值与其他特征都不相关）的分类方法。适用于文本分类、情感分析、垃…

人工智能 2023年7月1日
0086
Python 机器学习4：sklearn 分类算法

数据集划分 sklearn为我们提供了datasets模块，其中包括很多经典的数据集： from sklearn import datasets 这里我们查看鸢尾花分类的数据集，其…

人工智能 2023年7月1日
0096
超详细：安装Linux系统教程

做Linux安装教程的初心：工欲善其事必先利其器，相信很多的小伙伴和我一样，想学习Linux却被挡在了如何安装Linux系统这个门槛之外。我之前在安装Linux系统的时候，很多教…

人工智能 2023年5月30日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

linux上的tensorflow 2.4.1-gpu c++接口编译并用其运行.pb模型

System information

构建tensorflow的c++接口

使用tensorflow c++接口运行.pb模型

报错及解决办法

大家都在看