Pytorch导出onnx模型，C++转化为TensorRT并实现推理过程

2023年7月21日上午1:05 • 人工智能 • 阅读 84

1 Pytorch模型推理测试导出onnx

这部分我们使用 torchvision 实例化一个简单的 ResNet50 分类模型，并将其导出为 onnx 模型。在这个过程中，我们还需要使用一张图片进行推理，并记录下 Python 模型的输出，方便我们后面到处 TensoRT 模型并进行推理时进行准确性的验证。

由于 torchvision 中的 resnet50 分类模型中是没有进行最后的 softmax 操作的，这里我们为了之后使用方便，自己新建一个类 ResNet50_wSoftmax 将后处理 softmax 添加到模型中一起导出。

这也是 pytorch 导出 onnx 模型的一个推荐的方式，就是将一些必要后处理添加到模型中一起导出，这样做有两个优点：

可以直接得到端到端的 onnx/tensorrt 模型，不必在外面再做后处理操作
再之后我们会将 onnx 模型转换为 tensorrt 模型，在转换过程中 tensorrt 会对我们的模型进行一些针对特定的 Nvidia GPU 的推理优化，我们将后处理一起合并到 onnx 模型中，可能可以使得一些算子操作再转换为 tensorrt 的过程中同样得到优化。

最终代码如下：


import torch
import torchvision.models as models
import cv2
import numpy as np

class ResNet50_wSoftmax(torch.nn.Module):

    def __init__(self):
        super().__init__()
        self.base_model = models.resnet50(pretrained=True)
        self.softmax = torch.nn.Softmax(dim=1)

    def forward(self, x):
        y = self.base_model(x)
        prob = self.softmax(y)
        return prob

def preprocessing(img):

    IMAGENET_MEAN = [0.485, 0.456, 0.406]
    IMAGENET_STD = [0.229, 0.224, 0.225]
    img = img[:, :, ::-1]
    img = cv2.resize(img, (224, 224))
    img = img / 255.0
    img = (img - IMAGENET_MEAN) / IMAGENET_STD
    img = img.transpose(2, 0, 1).astype(np.float32)
    tensor_img = torch.from_numpy(img)[None]
    return tensor_img

if __name__ == '__main__':

    image_path = 'test.jpg'
    img = cv2.imread(image_path)
    tensor_img = preprocessing(img)
    model = ResNet50_wSoftmax()
    model.eval()
    pred = model(tensor_img)[0]
    max_idx = torch.argmax(pred)
    print(f"test_image: {image_path}, max_idx: {max_idx}, max_logit: {pred[max_idx].item()}")

    dummpy_input = torch.zeros(1, 3, 224, 224)
    torch.onnx.export(
            model, dummpy_input, 'resnet50_wSoftmax.onnx',
            input_names=['image'],
            output_names=['predict'],
            opset_version=11,
            dynamic_axes={'image': {0: 'batch'}, 'predict': {0: 'batch'}}
    )

执行结果会输出：

test_image: test.jpg, max_idx: 971, probability: 0.994541585445404

这些结果我们一会测试 onnx/tensorrt 模型时用于比对转换是否有误差。并得到一个 onnx 模型文件： classifier.onnx 。

2 onnxruntime推理测试

我们将刚刚得到的 classifier.onnx ，用 onnxruntime 来进行推理测试，看结果是否相同。

这里，我们就复用刚才测试 pytorch 模型时的预处理函数，整个 onnxruntime 推理测试代码如下：

import onnxruntime as ort
import numpy as np
import cv2
from export_onnx import preprocessing

image_path = 'test.jpg'
ort_session = ort.InferenceSession("classifier.onnx")

img = cv2.imread(image_path)
input_img = preprocessing(img)[None]

pred = ort_session.run(None, { 'image' : input_img } )[0][0]
max_idx = np.argmax(pred)
print(f"test_image: {image_path}, max_idx: {max_idx}, probability: {pred[max_idx]}")

输出：

test_image: test.jpg, max_idx: 971, probability: 0.994541585445404

可以看到，跟我们 pytorch 模型的测试结果是一致的。

3 C++ onnx模型转换为tensorrt模型

我们进行模型部署推理肯定是追求极致的推理速度，这时再用 Python 来进行转换和推理就不合适了，接下来我们就转战到 C++ 上，将onnx模型转换为tensorrt模型。

对于大部分深度学习部署的 C/C++ 的初学者而言，环境配置都是个老大难的问题。本身 C/C++ 的包管理就不如 Python 的 pip、conda 等来的直接方便，再加上各种 nvidia driver/cuda/cudnn/cuda-runtime 的各种版本不对齐的问题，包括笔者在内的许多萌新们初期总是会在环境配置遇到许多问题。但是本文关注的重点是整个模型转换和部署的过程，不可能花大篇幅再去介绍环境配置，将来有机会再单独写一篇介绍 Python/C++ 深度学习模型部署时环境配置的问题，这里就直接给出笔者使用的关键软硬件的版本号/型号。

GPU: RTX 3060ti 12GB
OS: ubuntu 18.04
gcc: 7.5
TensorRT: 8.x
CUDA: 11.2
cuDNN: 8.x

包含的头文件：


#include
#include

#include

#include

#include
#include
#include
#include
#include
#include
#include
#include
#include
#include

#include

首先我们要准备一个 logger 类，来打印构建 tensorrt 模型过程中的一些错误或警告。按照指定的严重性程度 (severity)，来打印信息。

inline const char* severity_string(nvinfer1::ILogger::Severity t) {
    switch (t) {
        case nvinfer1::ILogger::Severity::kINTERNAL_ERROR: return "internal_error";
        case nvinfer1::ILogger::Severity::kERROR: return "error";
        case nvinfer1::ILogger::Severity::kWARNING: return "warning";
        case nvinfer1::ILogger::Severity::kINFO: return "info";
        case nvinfer1::ILogger::Severity::kVERBOSE: return "verbose";
        default: return "unknown";
    }
}

class TRTLogger : public nvinfer1::ILogger {
public:
    virtual void log(Severity severity, nvinfer1::AsciiChar const* msg) noexcept override {
        if (severity  Severity::kWARNING) {
            if (severity == Severity::kWARNING) printf("\033[33m%s: %s\033[0m\n", severity_string(severity), msg);
            else if (severity == Severity::kERROR) printf("\031[33m%s: %s\033[0m\n", severity_string(severity), msg);
            else printf("%s: %s\n", severity_string(severity), msg);
        }
    }
};

build_model 函数，各步骤已在代码中添加注释：

bool build_model() {
    if (isFileExist( "classifier.trtmodel" )) {
        printf("classifier.trtmodel already exists.\n");
        return true;
    }

    TRTLogger logger;

    nvinfer1::IBuilder* builder = nvinfer1::createInferBuilder(logger);

    nvinfer1::IBuilderConfig* config = builder->createBuilderConfig();

    nvinfer1::INetworkDefinition* network = builder->createNetworkV2(1);

    auto parser = nvonnxparser::createParser(*network, logger);
    if (!parser->parseFromFile("classifier.onnx", 1)) {
        printf("Failed to parse classifier.onnx.\n");
        return false;
    }

    printf("Workspace Size = %.2f MB\n", (1 << 28) / 1024.0f / 1024.0f);
    config->setMaxWorkspaceSize(1 << 28);

    int maxBatchSize = 10;
    auto profile = builder->createOptimizationProfile();
    auto input_tensor = network->getInput(0);
    auto input_dims = input_tensor->getDimensions();

    input_dims.d[0] = 1;
    profile->setDimensions(input_tensor->getName(), nvinfer1::OptProfileSelector::kMIN, input_dims);
    profile->setDimensions(input_tensor->getName(), nvinfer1::OptProfileSelector::kOPT, input_dims);

    input_dims.d[0] = maxBatchSize;
    profile->setDimensions(input_tensor->getName(), nvinfer1::OptProfileSelector::kMAX, input_dims);
    config->addOptimizationProfile(profile);

    nvinfer1::ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);

    if (engine == nullptr) {
        printf("Build engine failed.\n");
        return false;
    }

    nvinfer1::IHostMemory* model_data = engine->serialize();
    FILE* f = fopen("classifier.trtmodel", "wb");
    fwrite(model_data->data(), 1, model_data->size(), f);
    fclose(f);

    model_data->destroy();
    engine->destroy();
    network->destroy();
    config->destroy();
    builder->destroy();

    printf("Build Done.\n");
    return true;
}

调用 build_model 函数成功后，我们会得到一个 classifier.trtmodel 文件。

上面的实现有个比较不优雅的地方，对于我们创建的 builder、 config 等指针，我们都需要一一进行 destroy，从而避免内存泄漏。实际上，这里我们可以通过共享指针，来实现自动释放。

shared_ptr<_T> make_nvshared(_T *ptr) {
    return shared_ptr<_T>(ptr, [](_T* p){p->destroy();});
}

在这里指定一下释放内存的方式，之后就可以通过类似：

auto network = make_nvshared(builder->createNetworkV2(1));

这样的方式创建智能指针，他会自己 destroy 释放，这样最后几行 destory 就不用写了。

4 tensorrt模型推理测试

我们上一步已经成功将 onnx 模型导出为了 tensorrt 模型，现在我们用 tensorrt 模型来进行推理，看一下结果是否与之前 pytorch 和 onnx 推理的结果一致，如果一致，则模型转换成功。

load_file 函数用于加载我们的 tensorrt 模型：

vector<unsigned char> load_file(const string& file) {
    ifstream in(file, ios::in | ios::binary);
    if (!in.is_open()) return {};

    in.seekg(0, ios::end);
    size_t length = in.tellg();

    vector<uint8_t> data;
    if (length > 0) {
        in.seekg(0, ios::beg);
        data.resize(length);

        in.read((char*)&data[0], length);
    }
    in.close();
    return data;
}

void inference(const string& image_path) {
    TRTLogger logger;

    auto engine_data = load_file("classifier.trtmodel");

    auto runtime = make_nvshared(nvinfer1::createInferRuntime(logger));
    auto engine = make_nvshared(runtime->deserializeCudaEngine(engine_data.data(), engine_data.size()));
    if (engine == nullptr) {
        printf("Deserialize cuda engine failed.\n");
        runtime->destroy();
        return;
    }

    if (engine->getNbBindings() != 2) {
        printf("Must be single input, single Output, got %d output.\n", engine->getNbBindings() - 1);
        return;
    }

    cudaStream_t stream = nullptr;
    checkRuntime(cudaStreamCreate(&stream));
    auto execution_context = make_nvshared(engine->createExecutionContext());

    int input_batch = 1;
    int input_channel = 3;
    int input_height = 224;
    int input_width = 224;

    int input_numel = input_batch * input_channel * input_height * input_width;
    float* input_data_host = nullptr;
    float* input_data_device = nullptr;

    checkRuntime(cudaMallocHost(&input_data_host, input_numel * sizeof(float)));
    checkRuntime(cudaMalloc(&input_data_device, input_numel * sizeof(float)));

  float mean[] = {0.406, 0.456, 0.485};
    float std[] = {0.225, 0.224, 0.229};

    auto image = cv::imread(image_path);
    cv::resize(image, image, cv::Size(input_width, input_height));

    int image_area = image.cols * image.rows;
    unsigned char* pimage = image.data;
    float* phost_b = input_data_host + image_area * 0;
    float* phost_g = input_data_host + image_area * 1;
    float* phost_r = input_data_host + image_area * 2;
    for (int i=0; i<image_area; ++i, pimage += 3) {
         *phost_r++ = (pimage[0] / 255.0f - mean[0]) / std[0];
         *phost_g++ = (pimage[1] / 255.0f - mean[1]) / std[1];
         *phost_b++ = (pimage[2] / 255.0f - mean[2]) / std[2];
     }

    checkRuntime(cudaMemcpyAsync(input_data_device, input_data_host, input_numel *sizeof(float), cudaMemcpyHostToDevice, stream));

    const int num_classes = 1000;
    float output_data_host[num_classes];
    float* output_data_device = nullptr;
    checkRuntime(cudaMalloc(&output_data_device, sizeof(output_data_host)));

    auto input_dims = engine->getBindingDimensions(0);
    input_dims.d[0] = input_batch;

    execution_context->setBindingDimensions(0, input_dims);

    float* bindings[] = {input_data_device, output_data_device};
    bool success = execution_context->enqueueV2((void**)bindings, stream, nullptr);

    checkRuntime(cudaMemcpyAsync(output_data_host, output_data_device, sizeof(output_data_host), cudaMemcpyDeviceToHost, stream));
    checkRuntime(cudaStreamSynchronize(stream));

    float* prob = output_data_host;
    int predict_label = max_element(prob, prob + num_classes) - prob;
    float conf = prob[predict_label];
    printf("test_image: %s, max_idx: %d, probability: %f", image_path.c_str(), predict_label, conf);

    checkRuntime(cudaStreamDestroy(stream));
    checkRuntime(cudaFreeHost(input_data_host));
    checkRuntime(cudaFree(input_data_device));
    checkRuntime(cudaFree(output_data_device));
}

最终得到输出：

test_image: test.jpg, max_idx: 971, probability: 0.994527

与之前 pytorch 和 onnx 推理的结果基本一致，模型转换成功。

给出完整的参考代码：https://github.com/Adenialzz/Hello-AIDeployment/tree/master/HAID/tensorrt/resnet

Original: https://blog.csdn.net/weixin_44966641/article/details/125472418
Author: Adenialzz
Title: Pytorch导出onnx模型，C++转化为TensorRT并实现推理过程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706095/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《计算机视觉基础知识蓝皮书》第2篇深度学习基础

本专栏将系统性地讲解计算机视觉基础知识、包含第 1篇机器学习基础、第2篇深度学习基础、第3篇卷积神经网络、第4篇经典热门网络结构、第5篇目标检测基础、第6篇网络搭建及训练…

人工智能 2023年6月16日
00100
YOLOPv2开源，目标检测&区域分割，多任务版本

论文链接：https://arxiv.org/abs/2208.11434 代码链接：https://github.com/CAIC-AD/YOLOPv2 在过去的十年中，多任务学…

人工智能 2023年7月12日
0052
图解机器学习算法(13) | 聚类算法详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年5月31日
00100
NLP beginner Task1 基于机器学习的文本分类

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年5月27日
0074
3060显卡下CUDA+CUDNN+Paddle安装的血泪史

3060显卡下CUDA+CUDNN+Paddle安装的血泪史 项目相关&#x80CC…

人工智能 2023年5月26日
0093
Python制作爱心跳动代码，这就是程序员的烂漫吗

前言最近有个剧挺火的就是那个程序员的剧，叫什么温暖你来着咳咳，剧我没怎么看，但是吧，里面有个爱心代码，最近可是蛮火的，今天就用Python来尝试一下吧怎么说呢，用这个表白也…

人工智能 2023年6月28日
0083
在AI算法中，什么是交叉验证

问题：什么是降低维度（Dimensionality Reduction）？降低维度是指将高维数据转换为低维空间的过程，从而减少数据的特征维度。在实际应用中，高维数据可能存在许多冗…

人工智能 2024年1月1日
0050
华为Atlas200DK开发从零开始3.目标检测模型CANN部署——以YOLOX、YOLOv5和Nanodet为例（1）CANN接口调用

目录前言深度学习模型在AI芯片上部署的一般流程 CANN模型部署流程 CANN ACL接口调用流程(python) * 步骤1.ACL环境初始化和资源申请步骤2.模型加载步…

人工智能 2023年7月12日
0095
语音识别基础-梅尔谱图

Transfomer应用及改进系列文章目录第一章语音识别基础-梅尔谱图第二章李宏毅hw4语音识别数据集及需求详解第三章从rnn到gru、lstm及双向神经网络第四章编码器…

人工智能 2023年5月23日
0090
【国科大数据科学导论】作业1：Linear regression with Yelp votes

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月17日
0072
目标跟踪（1）基于OpenCV实现单目标跟踪

在本教程中，我们将学习使用OpenCV跟踪对象。OpenCV 3.0开始引入跟踪API。我们将学习如何和何时使用OpenCV 4.2中可用的8种不同的跟踪器- BOOSTING, …

人工智能 2023年6月18日
0080
VINS-MONO概述

VINS-Mono是HKUST的Shen Shaojie团队开源的一套Visual-Inertial融合定位算法，https://github.com/HKUST-Aerial-R…

人工智能 2023年6月2日
0094
pytorch：深入理解 reshape(), view(), transpose(), permute() 函数

文章目录 * – 前言 – 1. reshape() – 2. view() – + ① 1 阶变高阶 + * 1 阶变 2 阶 *…

人工智能 2023年7月27日
0048
pandas在excel中的应用

1、pandas 中一维数组，二维数组和exce，csv的简单应用。 import pandas as pd series 方法代表一维数组 li_st = ["r&q…

人工智能 2023年7月17日
0046
SpringBoot-运维实用篇复习(全)

本文主要涉及SpringBoot和运维相关的配置，主要针对实际开发和上线的时候环境怎么设置问题，下面一起开启新的学习旅程吧，冲吧，小伙伴。在此处首先对SpringBoot的基础篇…

人工智能 2023年6月27日
0074
YOLOv7 Tensorrt Python部署教程

B站教学视频 https://www.bilibili.com/video/BV1q34y1n7Bw/ Github仓库地址 https://github.com/Monday-L…

人工智能 2023年6月16日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch导出onnx模型，C++转化为TensorRT并实现推理过程

1 Pytorch模型推理测试导出onnx

2 onnxruntime推理测试

3 C++ onnx模型转换为tensorrt模型

4 tensorrt模型推理测试

大家都在看