Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换

2023年7月22日下午12:17 • 人工智能 • 阅读 80

0.Xavier环境

JetPack 4.6
python 3.6.9
tensorrt 8.0.1.6
torch 1.9.0 在jetson_zoo下载符合JetPack对应的版本
opencv 4.1.1
ros2安装在docker中

1.TensorRT模型压缩

TRT加载模型，并构建TRT的引擎，主要分为6步:
1.建立一个logger日志，必须要有，但又不是那么重要;
2.创建一个builder;
3.创建一个network，这时候network只是一个空架子;
4.建立一个Parser，caffe模型，onnx模型和TF模型都有对应的paser，顾名思义，就是用来解析模型文件的
5.建议engine，进行层之间的融合或者校准方式，可以FP32，FP16或者INT8;
6.建立一个context，这个是用来做inference推断的。上面连接engine，下对应推断数据，所以称之为上下文联系器。
FP16和INT8能加速的本质
通过指令或硬件技术，在单位时钟周期内，FP16和INT8类型的运算次数大于FP32类型的运算次数。
FP16的模型文件大小要比原始的onnx模型小一半，INT8的模型文件大小要比FP16的模型小一半。例如原始的pytorch车道线模型大小为500M，转为onnx文件后大小为244M，FP16精度的engine文件大小为122.6M，INT8精度的engine文件大小为62.9M

2.FP16压缩

FP32压缩FP16的原理:
max_batch_size: 1
onnx_file_path: onnx文件路径
engine_file_path: engine文件路径
save_engine: 是否保存engine文件

def get_engine(max_batch_size,
            onnx_file_path,
            engine_file_path,
            save_engine=True):
    TRT_LOGGER = trt.Logger()
    assert not os.path.exists(engine_file_path), "Engine file alrealdy exist"
    explicit_batch = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
    with trt.Builder(TRT_LOGGER) as builder, \
        builder.create_network(explicit_batch) as network,  \
        trt.OnnxParser(network, TRT_LOGGER) as parser, \
        builder.create_builder_config() as config:
        profile = builder.create_optimization_profile()

        config.max_workspace_size = 1<<28
        builder.max_batch_size = max_batch_size

        if builder.platform_has_fast_fp16:
            config.set_flag(trt.BuilderFlag.FP16)

        if not os.path.exists(onnx_file_path):
            quit("ONNX file {} not found!".format(onnx_file_path))
        print('loading onnx file from path {} ...'.format(onnx_file_path))
        parser.parse_from_file(onnx_file_path)
        print("Completed parsing of onnx file")
        print("Building an engine from file{}' this may take a while...".format(onnx_file_path))
        print(network.get_layer(network.num_layers-1).get_output(0).shape)
        engine = builder.build_engine(network, config)
        print("Completed creating Engine")
        if save_engine:
            with open(engine_file_path, 'wb') as f:
                f.write(engine.serialize())
        return engine

3.INT8压缩

量化方法
熵校准类

class EntropyCalibrator(trt.IInt8EntropyCalibrator2):
    def __init__(self, training_data, cache_file, batch_size=128):
        trt.IInt8EntropyCalibrator2.__init__(self)
        self.cache_file = cache_file
        t1 = time.time()
        self.data = self.load_data(training_data)
        t2 = time.time()
        print('load_data:', 1000*(t2-t1), ' ms')
        self.batch_size = batch_size
        self.current_index = 0

        self.device_input = cuda.mem_alloc(self.data[0].nbytes * self.batch_size)

    def load_data(self, datapath):
        print("loading image data")
        imgs = os.listdir(datapath)
        dataset = []
        for order, data in enumerate(imgs):
            image_path = os.path.join(datapath, data)
            img = cv2.imread(image_path)
            img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
            img = Image.fromarray(img)
            img = img_transforms(img).numpy()
            dataset.append(img)
            print('calibration image order:', order)
        return np.array(dataset)

    def get_batch_size(self):
        return self.batch_size

    def get_batch(self, names):
        if self.current_index + self.batch_size > self.data.shape[0]:
            return None

        current_batch = int(self.current_index / self.batch_size)
        if current_batch % 10 == 0:
            print("Calibrating batch {:}, containing {:} images".format(current_batch, self.batch_size))

        batch = self.data[self.current_index:self.current_index + self.batch_size].ravel()
        cuda.memcpy_htod(self.device_input, batch)
        self.current_index += self.batch_size
        return [self.device_input]

    def read_calibration_cache(self):
        if os.path.exists(self.cache_file):
            with open(self.cache_file, "rb") as f:
                return f.read()

    def write_calibration_cache(self, cache):
        with open(self.cache_file, "wb") as f:
            f.write(cache)

模型生成

def get_engine(max_batch_size=1, onnx_file_path="", engine_file_path="", mode="fp16", save_engine=True):
    TRT_LOGGER = trt.Logger()
    assert not os.path.exists(engine_file_path), "Engine file alrealdy exist"
    explicit_batch = 1 << (int)(trt.NetworkDefinitionCreationFlag.EXPLICIT_BATCH)
    with trt.Builder(TRT_LOGGER) as builder, \
        builder.create_network(explicit_batch) as network,  \
        trt.OnnxParser(network, TRT_LOGGER) as parser, \
        builder.create_builder_config() as config:
        profile = builder.create_optimization_profile()

        config.max_workspace_size = 1<<28
        builder.max_batch_size = max_batch_size
        half = True
        assert (builder.platform_has_fast_int8 == True), 'not support int8'
        config.set_flag(trt.BuilderFlag.INT8)
        config.int8_calibrator = Int8_calibrator

        if not os.path.exists(onnx_file_path):
            quit("ONNX file {} not found!".format(onnx_file_path))
        print('loading onnx file from path {} ...'.format(onnx_file_path))
        parser.parse_from_file(onnx_file_path)
        print("Completed parsing of onnx file")
        print("Building an engine from file {}' this may take a while...".format(onnx_file_path))
        print(network.get_layer(network.num_layers-1).get_output(0).shape)
        engine = builder.build_engine(network, config)
        print("Completed creating Engine")
        if save_engine:
            with open(engine_file_path, 'wb') as f:
                f.write(engine.serialize())
        return engine

Quadro P2000 INT8与FP32推理速度对比

原始pytorch算法，推理速度FPS:11.5
INT8精度engine模型，推理速度约FPS:18
P2000显卡不支持FP16精度

Xavier INT8与FP32推理速度对比

FP16推理约6-8毫秒，总体帧率22帧
INT8推理4-6毫秒，总体帧率23帧
没有必要INT8，影响速度的瓶颈不在inference了，对加载图像和后面推理结果处理以及可视化等部分耗时优化收益更大

INT8与FP32推理精度对比

精度指标待补充，目测还不错。（下图INT8精度的推理结果，校准用了2000多张图片）

Original: https://blog.csdn.net/weixin_44742084/article/details/125820897
Author: Zannnne
Title: Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/708989/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

N-gram模型详解

语言模型(Language Model) 基本概念什么是语言模型？简言之，语言模型可以理解为是一种用于判度一个句子是否通顺的模型。举例来说，假设我们有一个训练好的语言模型m o …

人工智能 2023年5月27日
0045
基于Python构建机器学习Web应用

目录一、内容介绍 1.Onnx模型 ①skl2onnx库安装 2.Netron安装二、模型构建 1.数据加载 2.划分可训练特征与预测标签 3.训练模型 ①第三方库导入 ②数据…

人工智能 2023年6月23日
00112
python 知识图谱推理_知识图谱推理与实践 (2) — 基于jena实现规则推理

本章，介绍基于jena的规则引擎实现推理，并通过两个例子介绍如何coding实现。规则引擎概述 jena包含了一个通用的规则推理机，可以在RDFS和OWL推理机使用，也可以单独…

人工智能 2023年6月1日
0058
Go语言笔记-基础篇

视频(P1-P49)：【狂神说】Go语言零基础学习视频通俗易懂 1. 安装去 Go语言中文网下载安装包，一路下一步。然后配置环境变量 GOROOT、 GOPATH。 GOROOT…

人工智能 2023年6月27日
0079
Speech模块管理语音输入功能，提供语音识别功能，可支持用户通过麦克风设备进行语音输入内容。通过plus.speech可获取语音输入管理对象

Speech模块管理语音输入功能，提供语音识别功能，可支持用户通过麦克风设备进行语音输入内容。通过plus.speech可获取语音输入管理对象。语音输入接口可使得网页开发人员能快…

人工智能 2023年5月25日
0073
python excel 批量更换表头函数

最近几天忙朋友信息化，他拿来了几十个excel,每个excel里又包含多个sheet，名字不统一，向数据库中导入时，时时错误如有的头写成了”联系人”，有…

人工智能 2023年7月9日
0075
linux安装tensorflow-gpu

目录 * – 1. 安装Anaconda – + 1.1 选择anaconda版本 + 1.2 上传到远程linux服务器（可选） + 1.3 开始进行安装…

人工智能 2023年5月25日
0079
【STM32+cubemx】0028 HAL库开发：MPU6050官方DMP的移植和使用（续上节）

上一节我们使I2C总线获取了MPU6050的三轴加速度、三轴角速度，并且介绍了一种简单的初始状态校准方法；这一节我们继续，在已有的底层驱动基础上，移植MPU6050芯片官方的DMP…

人工智能 2023年6月24日
0091
手势识别调研

文章目录前言一、手势识别简介二、二维手势识别 * 1. 经典算法模型 2.采集信息方案三、三维手势识别 * 1.经典算法模型 2.采集深度信息设备方案四、现有产品技术 …

人工智能 2023年7月14日
0070
数据仓库与数据挖掘

课后习题答案基础知识数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合数据挖掘是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式…

人工智能 2023年7月16日
0089
【FPGA】时序逻辑电路——基于计数器实现一个以1秒频率闪烁的LED灯

时序逻辑电路计数器的实现 1 D触发器分析：特性：输出端Q只在CK处于上升沿的时候变化图中波形的形成过程：当D处于高电平时，CK未处于上升沿时，Q仍处于低电平当CK来到…

人工智能 2023年6月29日
0087
【Python】使用sklearn PCA对人脸数据降维

【python】sklearn PCA对人脸数据降维与识别 1. PCA * 1.1 PCA原理 1.2 sklearn PCA使用方法 2. 人脸数据降维 * 2.1 读取图片 …

人工智能 2023年7月18日
0053
web前端期末大作业：红色主题中国文化网页设计与实现——基于HTML+CSS实现中国梦(20页)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
0076
LDA主题提取+可视化分析（PyLDAavis）

文本评论分析包括很多步骤，本文讲述的是主题提取+结果可视化分析，”可视化分析部分”较多内容借鉴于这篇博文，大家可以去他那里看看，当然这位博主中也有一个问题我…

人工智能 2023年6月16日
00117
SCTransform：单细胞样本的标准化

每次我在国内直接用这种方法下载数据集都没有成功，如上，下载安装包，本地安装： install.packages(“H:/singlecell/Seurat/stxBra…

人工智能 2023年6月17日
0056
从0到1，搭建决策分析模型

数据分析要驱动决策！这个道理人人都知道，可实操起来，到底咋驱动法？很多同学见都没见过，偶尔写几句分析建议，还被喷回来……咋整？今天系统分享一下。破局的关键…

人工智能 2023年6月11日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Xavier中使用TensorRT的Python API对Pytorch模型进行FP16精度和INT8精度转换

0.Xavier环境

1.TensorRT模型压缩

2.FP16压缩

3.INT8压缩

Quadro P2000 INT8与FP32推理速度对比

Xavier INT8与FP32推理速度对比

INT8与FP32推理精度对比

大家都在看