TensorRT 概述、原理、Linux下安装

2023年6月28日上午2:02 • 人工智能 • 阅读 122

聊聊TensorRT

随着传统的高性能计算和新兴的深度学习在百度、京东等大型的互联网企业的普及发展，作为训练和推理载体的GPU也被越来越多的使用。

NVDIA本着让大家能更好地利用GPU，使其在做深度学习训练的时候达到更好的效果的目标

推出了支持高性能深度学习支持引擎——TensorRT。

TensorRT是一个有助于在NVIDIA图形处理单元（GPU）上高性能推理c++库。

它旨在与TesnsorFlow、Caffe、Pytorch以及MXNet等训练框架以互补的方式进行工作，专门致力于在GPU上快速有效地进行网络推理。

如今现有的一些训练框架（例如TensorFlow）已经集成了TensorRT，因此可以将其用于加速框架中的推理。

另外，TensorRT可以作为用户应用程序中的库

它包括用于从Caffe，ONNX或TensorFlow导入现有模型的解析器，以及用于以编程方式（C++或Python API）构建模型。

在训练了神经网络之后，TensorRT可以对网络进行压缩、优化以及运行时部署，并且没有框架的开销。

TensorRT通过combines layers，kernel优化选择，以及根据指定的精度执行归一化和转换成最优的matrix math方法

改善网络的延迟、吞吐量以及效率。

TensorRT通过结合抽象出特定硬件细节的高级API和优化推理的实现来解决这些问题

以实现高吞吐量、低延迟和低设备内存占用。

TensorRT是如何工作的

为了优化模型的inference，TensorRT会根据网络的定义执行优化【包括特定平台的优化】并生成inference engine

此过程被称为构建阶段，尤其是在嵌入式平台上会消耗大量的时间

因此，一个典型的应用程序只会被构建一次engine，然后将其序列化为plane file以供后续使用。

注意：生成的plane file 不能跨平台或TensorRT 版本移植。

另外，因为plane file是明确指定GPU 的model，所以我们要想使用不同的GPU来运行plane file必须得重新指定GPU

构建阶段在layer graph上执行以下优化

消除没有使用的outputs layer
消除等同于没有操作的operation
convolution，bias and ReLU的融合
把具有足够相似的parameters和相同的source tensor的operation进行aggregation【例如1×1的convolution】
通过将输出层定向到正确的最终目的来合并concatenate layer

TensorRT提供了哪些功能

TensorRT使开发人员能够导入、校准、生成以及部署优化的网络

网络可以直接从Caffe导入，也可以通过UFF或ONNX格式从其他框架导入

也可以通过实例化各个图层并直接设置参数和weight以编程的方式创建

用户可以通过TensorRT使用Plugin interface运行自定义图层。

TensorRT中的GraphSurgeon功能提供了Tensorflow中自定义layer的节点映射，因此可以支持许多TensorFlow模型的inference。

TensorRT在所有支持平台上提供了C++实现，并在x86，aarch64和ppc64le上提供Python实现。

TensorRT核心库中的关键接口是：

Network Definition：网络定义接口为应用程序提供了指定网络定义方法。
Optimization Profile：优化配置文件指定对动态维度的约束。
Builder Configuration：构建器配置接口指定用于创建engine的详细信息
Builder：构建器接口允许根据网络定义和builder configuration创建一个优化的engine
Engine：engine接口允许应用程序执行inference
Caffe Parser：该解析器可用于解析在BVLCCaffe或NVCaffe0.16中创建的Caffe网络。
UFF Parser：该解析器可用于解析UFF格式的网络。
ONNX Parser：该解析器可用于解析ONNX模型。

为什么TensorRT能让模型跑的快

TensorRT主要做了下面几件事，来提升模型的运行速度

TensorRT支持FP16和INT8的计算

深度学习在训练的时候一般是应用32位或者16位数据

TensorRT在推理的时候可以降低模型参数的位宽来进行低精度推理，以达到加速推断的目的。

TensorRT对于网络结构进行重构，把一些能够合并的运算合并在了一起，针对GPU的特性做了优化

GPU上跑的函数叫Kernel，TensorRT是存在Kernel的调用的

在绝大部分框架中，比如一个卷积层、一个偏置层和一个reload层，这三层是需要调用三次cuDNN对应的API

但实际上这三层的实现完全是可以合并到一起的，TensorRT会对一些可以合并网络进行合并

目前的网络一方面越来越深，另一方面越来越宽，可能并行做若干个相同大小的卷积，这些卷积计算其实也是可以合并到一起来做的

Kernel Auto-Tuning：网络模型在推理计算时，是调用GPU的CUDA核进行计算的

TensorRT可以针对不同的算法，不同的网络模型，不同的GPU平台，进行 CUDA核的调整

以保证当前模型在特定平台上以最优性能计算。

Dynamic Tensor Memory 在每个tensor的使用期间，TensorRT会为其指定显存

Dynamic Tensor Memory 在每个tensor的使用期间，TensorRT会为其指定显存，避免显存重复申请，减少内存占用和提高重复使用效率。

TensorRT的自动安装

主要是网络比较好，可以采用这个方式安装

pip install tensorrt
pip install nvidia-pyindex
pip install nvidia-tensorrt

TensorRT的手动安装

下载安装包

查询本机Linux版本： cat /etc/issue

查询本机CUDA版本： cat /usr/local/cuda/version.txt

打开官网下载TensorRT：https://developer.nvidia.com/nvidia-tensorrt-download

这里使用基于deb文件的安装

但是建议还是下载一个tar文件，这样在安装完成后，如果报错发现一些依赖包缺失，便于安装依赖包，在之后就会看到这样的操作。

同时需要注意的，英伟达自己的几个GPU平台，是有不一样的安装指南的。

使用deb包安装

dpkg -i xxx.deb
apt-key add xxx.pub
apt-get update
apt-get install tensorrt

安装依赖包

TensorRT的一个依赖包是libnvinfer。

如果使用Python 2.7: apt-get install python-libnvinfer-dev

如果使用Python 3.x: apt-get install python3-libnvinfer-dev

检查TensorRT是否安装成功

dpkg -l | grep TensorRT

运行实例程序

安装后会在 /usr/src 目录下生成一个 tensorrt 文件夹，里面包含 bin , data , python , samples 四个文件夹

samples 文件夹中是官方例程的源码

data , python 文件中存放官方例程用到的资源文件，比如caffemodel文件，TensorFlow模型文件，一些图片等

bin 文件夹用于存放编译后的二进制文件

可以把 tensorrt 文件夹拷贝到用户目录下，方便自己修改测试例程中的代码

进入 samples 文件夹直接 make，会在 bin 目录中生成可执行文件，可以一一进行测试学习

一般情况下，实例程序运行成功，TensorRT也就安装成功了

参考文献

https://docs.nvidia.com/deeplearning/tensorrt/
https://zhuanlan.zhihu.com/p/356072366
https://cloud.tencent.com/developer/article/1594985
https://arleyzhang.github.io/articles/7f4b25ce/

Original: https://blog.csdn.net/qq_38973721/article/details/127806319
Author: 小鹏AI
Title: TensorRT 概述、原理、Linux下安装

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/656134/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ClassicNetwork 图像分类网络论文链接汇总

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0089
【Python】批量爬取OSM建筑瓦片数据并整合为shp格式数据

目录 1 简介 2 效果展示 3 思路及代码 3 完整代码 4 一些说明 1 简介最近在做一项课题，涉及到建筑足迹（Building footprints）数据。所以想看看现在比…

人工智能 2023年7月15日
0060
如何使用 Web Speech API 在浏览器中识别语音

当您运行此代码时，Chrome 会请求使用麦克风的权限。如果您在 Web 服务器上托管页面，请记住您在浏览器中的权限。允许使用麦克风并说话。当您结束对话时，它将 SpeechRec…

人工智能 2023年5月25日
0098
【愚公系列】2021年12月攻防世界-进阶题-MISC-064(intoU)

文章目录一、intoU 二、答题步骤 * 1.Audacity 总结一、intoU 题目链接：https://adworld.xctf.org.cn/task/task_lis…

人工智能 2023年5月25日
0092
模仿学习（Imitation Learning）概述

目录 1 算法介绍 1.1 什么是专家示范数据？ 1.2 Behavior Cloning 1.2.1 算法思路 1.2.2 算法步骤 1.2.3 算法特性 1.2.4 算法改进d…

人工智能 2023年6月15日
0094
10.十大经典算法

（包括各自优缺点 / 适用数据场景）本文主要分析皆来自其他资料，借用较为权威的总结来对我已经学习的这些经典算法做一个极为精简的概述（根据自身经验有一定修改），另外同时附上机器学习…

人工智能 2023年7月18日
0086
pandas在excel中的应用

1、pandas 中一维数组，二维数组和exce，csv的简单应用。 import pandas as pd series 方法代表一维数组 li_st = ["r&q…

人工智能 2023年7月8日
0062
【CSDN 年度总结】爱与被爱的双向奔赴——我与《Ta》的点点滴滴

目录 1️⃣前言 🎊送给我们 2️⃣我与Ta（CSDN）的回忆 😊遇见便是幸运 👨‍💻2021年CSDN写文记录 👨‍🏫受邀CSDN原力计划 🛒收获与支持 💎自媒体运营 😜展望与未…

人工智能 2023年7月14日
0059
CNN基础知识

本篇文章参考其他文章、博客、定义等参考，自己总结的，如有侵权，请联系删除。CNN全称卷积神经网络（Convolutional Neural Networks, CNN）卷积神经…

人工智能 2023年7月13日
0076
tensorflow笔记（2）

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月25日
00106
一口气说出 Redis 16 个常见使用场景

1、缓存 String类型例如：热点数据缓存（例如报表、明星出轨），对象缓存、全页缓存、可以提升热点数据的访问数据。 2、数据共享分布式 String 类型，因为 Redis 是…

人工智能 2023年6月26日
0061
基于Python的招聘网站爬虫及可视化的设计与实现

摘要 IAbstract II引言 1第1章课题概述 21.1 课题内容 21.2 课题背景 21.3 课题意义 31.4 运行环境 31.5 相关技术 31.5.1 Pyt…

人工智能 2023年7月5日
0073
初入深度学习2——如何使用一个深度学习库

初入深度学习2——如何使用一个深度学习库学习前言使用一个深度学习仓库 * 一、环境配置 – 1、仓库包含requirements.txt 2、仓库不包含requir…

人工智能 2023年6月17日
00100
标定的分类（一）

关于标定的分类及说明(一) 现在工业机器视觉和计算机视觉大量应用标定算法，但是对于初学者来说，存在概念模糊，理论理解错误的现状，因此，需要对标定进行梳理，防止大家在学习过程中混淆各…

人工智能 2023年7月1日
00117
机器学习之数据均衡算法种类大全+Python代码一文详解

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月18日
0065
R实现KMeans聚类算法教程

本文和你一起学习无监督机器学习算法 ———— kmeans算法，并在R中给详细的实现示例和步骤。什么是k-means聚类算法聚类是从数据集中对观测值进行聚类的机器学习方法。它的…

人工智能 2023年6月13日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

TensorRT 概述、原理、Linux下安装

大家都在看