Jetson Nano配置YOLOv5并实现FPS=25

2023年6月25日下午11:27 • 人工智能 • 阅读 83

Jetson Nano配置YOLOv5并实现FPS=25的实时检测（超详细保姆级）

文章目录

Jetson Nano配置YOLOv5并实现FPS=25的实时检测（超详细保姆级）
*
一、版本说明
二、配置CUDA
三、修改Nano板显存
–
四、配置Pytorch1.8
–
- 1.下载torch-1.8.0-cp36-cp36m-linux_aarch64.whl
- 2.安装所需的依赖包及pytorch
五、搭建yolov5环境
六、利用tensorrtx加速推理
–
七、参考

一、版本说明

JetPack 4.6——2021.8
yolov5-v6.0版本
使用的为yolov5的yolov5n.pt，并利用tensorrtx进行加速推理，在调用摄像头实时检测可以达到FPS=25。

二、配置CUDA

sudo gedit ~/.bashrc

在打开的文档的末尾添加如下：

export CUDA_HOME=/usr/local/cuda-10.2
export LD_LIBRARY_PATH=/usr/local/cuda-10.2/lib64:$LD_LIBRARY_PATH
export PATH=/usr/local/cuda-10.2/bin:$PATH

保持并退出，终端执行

source ~/.bashrc
nvcc -V #&#x5982;&#x679C;&#x914D;&#x7F6E;&#x6210;&#x529F;&#x53EF;&#x4EE5;&#x770B;&#x5230;CUDA&#x7684;&#x7248;&#x672C;&#x53F7;

三、修改Nano板显存

1.打开终端输入：

sudo gedit /etc/systemd/nvzramconfig.sh

2.修改nvzramconfig.sh文件

&#x4FEE;&#x6539;mem = $((("${totalmem}"/2/"${NRDEVICES}")*1024))
&#x4E3A;mem = $((("${totalmem}"*2/"${NRDEVICES}")*1024))

3.重启Jetson Nano

4.终端中输入：

free -h

可查看到swap已经变为7.7G

四、配置Pytorch1.8

1.下载torch-1.8.0-cp36-cp36m-linux_aarch64.whl

下载地址：nvidia.box.com/shared/static/p57jwntv436lfrd78inwl7iml6p13fzh.whl
网盘分享：链接：https://pan.baidu.com/s/1tS51E3a-a-w9_OdCNraoAg
提取码：30qr
说明：建议在电脑上下载后拷贝到Jetson Nano的文件夹下，因为该网站的服务器在国外，可能下载比较慢或网页加载不出来，可以打开VPN进行下载。

2.安装所需的依赖包及pytorch

打开终端输入：

sudo apt-get update
sudo apt-get upgrade
sudo apt-get dist-upgrade
sudo apt-get install python3-pip libopenblas-base libopenmpi-dev

因为下面用pip指令安装时用默认选用的国外源，所以下载比较费时间，建议更换一下国内源，这里提供几种源，当使用某种国内源pip无法下载某一包时可以尝试切换再下载。具体步骤如下：

打开终端输入：

mkdir ~/.pip
sudo gedit ~/.pip/pip.conf

在空白文件中输入如下内容保存并退出：
以下为豆瓣源

[global]
timeout=6000
index-url=https://pypi.doubanio.com/simple
trusted-host=pypi.doubanio.com

以下为阿里源

[global]
index-url=http://mirrors.aliyun.com/pypi/simple/
[install]
trusted-host=mirrors.aliyun.com

以下为清华源

[global]
index-url=https://pypi.tuna.tsinghua.edu.cn/simple/
[install]
trusted-host=https://pypi.tuna.tsinghua.edu.cn

终端输入：

pip3 install --upgrade pip      #&#x5982;&#x679C;pip&#x5DF2;&#x662F;&#x6700;&#x65B0;&#xFF0C;&#x53EF;&#x4E0D;&#x6267;&#x884C;
pip3 install Cython
pip3 install numpy
pip3 install torch-1.8.0-cp36-cp36m-linux_aarch64.whl       #&#x6CE8;&#x610F;&#x8981;&#x5728;&#x5B58;&#x653E;&#x8BE5;&#x6587;&#x4EF6;&#x4E0B;&#x7684;&#x4F4D;&#x7F6E;&#x6253;&#x5F00;&#x7EC8;&#x7AEF;&#x5E76;&#x8FD0;&#x884C;
sudo apt-get install libjpeg-dev zlib1g-dev libpython3-dev libavcodec-dev libavformat-dev libswscale-dev
git clone --branch v0.9.0 https://github.com/pytorch/vision torchvision  #&#x4E0B;&#x8F7D;torchvision&#xFF0C;&#x4F1A;&#x4E0B;&#x8F7D;&#x4E00;&#x4E2A;&#x6587;&#x4EF6;&#x5939;
cd torchvision  #&#x6216;&#x8005;&#x8FDB;&#x5165;&#x5230;&#x8FD9;&#x4E2A;&#x6587;&#x4EF6;&#x5939;&#xFF0C;&#x53F3;&#x952E;&#x6253;&#x5F00;&#x7EC8;&#x7AEF;
export BUILD_VERSION=0.9.0
python3 setup.py install --user #&#x65F6;&#x95F4;&#x8F83;&#x4E45;
#&#x9A8C;&#x8BC1;torch&#x548C;torchvision&#x8FD9;&#x4E24;&#x4E2A;&#x6A21;&#x5757;&#x662F;&#x5426;&#x5B89;&#x88C5;&#x6210;&#x529F;
python3
import torch
print(torch.__version__)    #&#x6CE8;&#x610F;version&#x524D;&#x540E;&#x90FD;&#x662F;&#x6709;&#x4E24;&#x4E2A;&#x6A2A;&#x6760;
#&#x5982;&#x679C;&#x5B89;&#x88C5;&#x6210;&#x529F;&#x4F1A;&#x6253;&#x5370;&#x51FA;&#x7248;&#x672C;&#x53F7;
import torchvision
print(torchvision.__version__)
#&#x5982;&#x679C;&#x5B89;&#x88C5;&#x6210;&#x529F;&#x4F1A;&#x6253;&#x5370;&#x51FA;&#x7248;&#x672C;&#x53F7;

五、搭建yolov5环境

终端中输入：

git clone https://github.com/ultralytics/yolov5.git     #&#x56E0;&#x4E3A;&#x4E0D;&#x5F00;VPN&#x5F88;&#x5BB9;&#x6613;&#x4E0B;&#x8F7D;&#x51FA;&#x9519;&#xFF0C;&#x5EFA;&#x8BAE;&#x5728;&#x7535;&#x8111;&#x4E2D;&#x4E0B;&#x8F7D;&#x540E;&#x62F7;&#x8D1D;&#x5230;jetson nano&#x4E2D;
python3 -m pip install --upgrade pip
cd yolov5   #&#x5982;&#x679C;&#x662F;&#x624B;&#x52A8;&#x4E0B;&#x8F7D;&#x7684;&#xFF0C;&#x6587;&#x4EF6;&#x540D;&#x79F0;&#x4E3A;yolov5-master.zip&#x538B;&#x7F29;&#x5305;&#x683C;&#x5F0F;&#xFF0C;&#x6240;&#x4EE5;&#x8981;&#x5BF9;&#x7528;unzip yolov5-master.zip&#x8FDB;&#x884C;&#x89E3;&#x538B;&#xFF0C;&#x7136;&#x540E;&#x518D;&#x8FDB;&#x5165;&#x5230;&#x8BE5;&#x6587;&#x4EF6;&#x5939;
pip3 install -r requirements.txt        #&#x6211;&#x7684;&#x95EE;&#x9898;&#x662F;&#x5BF9;matplotlib&#x5305;&#x88C5;&#x4E0D;&#x4E0A;&#xFF0C;&#x89E3;&#x51B3;&#x529E;&#x6CD5;&#xFF0C;&#x5728;&#x4E0B;&#x65B9;&#x3002;&#x5982;&#x679C;&#x5176;&#x4ED6;&#x5305;&#x5B89;&#x88C5;&#x4E0D;&#x4E0A;&#xFF0C;&#x53EF;&#x53BB;&#x91CD;&#x65B0;&#x6267;&#x884C;&#x6362;&#x6E90;&#x90A3;&#x4E00;&#x6B65;&#xFF0C;&#x66F4;&#x6362;&#x53E6;&#x4E00;&#x79CD;&#x56FD;&#x5185;&#x6E90;&#x3002;
python3 -m pip list     #&#x53EF;&#x67E5;&#x770B;python&#x4E2D;&#x5B89;&#x88C5;&#x7684;&#x5305;
&#x4EE5;&#x4E0B;&#x6307;&#x4EE4;&#x53EF;&#x4EE5;&#x7528;&#x6765;&#x6D4B;&#x8BD5;yolov5
python3 detect.py --source data/images/bus.jpg --weights yolov5n.pt --img 640   #&#x56FE;&#x7247;&#x6D4B;&#x8BD5;
python3 detect.py --source video.mp4 --weights yolov5n.pt --img 640 #&#x89C6;&#x9891;&#x6D4B;&#x8BD5;,&#x9700;&#x8981;&#x81EA;&#x5DF1;&#x51C6;&#x5907;&#x89C6;&#x9891;
python3 detect.py --source 0 --weights yolov5n.pt --img 640 #&#x6444;&#x50CF;&#x5934;&#x6D4B;&#x8BD5;

问题1：解决matplotlib安装不上问题
解决：下载matplotlib的whl包（下方有网盘分享）
问题2：在运行yolov5的detect.py文件时出现 “Illegal instruction（core dumped）”
解决：

sudo gedit ~/.bashrc
&#x672B;&#x5C3E;&#x6DFB;&#x52A0;
export OPENBLAS_CORETYPE=ARMV8
&#x4FDD;&#x6301;&#x5173;&#x95ED;
source ~/.bashrc

网盘分享：
yolov5：链接：https://pan.baidu.com/s/1oGLTyUZ9TzEWO1VfxV70yw
提取码：3ran
yolov5n.pt:链接：https://pan.baidu.com/s/1k-EDuIJgKc_9OYubWOhJcg
提取码：oe0w
下载yolov5n.pt文件在https://github.com/ultralytics/yolov5中下载，如图位置所示
matplotlib：链接：https://pan.baidu.com/s/19DanfBYMxKerxlDSuIF8MQ
提取码：fp4i

; 六、利用tensorrtx加速推理

1.下载tensorrtx

下载地址：https://github.com/wang-xinyu/tensorrtx.git

或者

git clone https://github.com/wang-xinyu/tensorrtx.git

网盘分享：链接：https://pan.baidu.com/s/14vCw3V74bWrT_3QQ-Yk–A
提取码：3zom

2.编译

将下载的tensorrtx项目中的yolov5/gen_wts.py复制到上述的yolov5（注意：不是tensorrtx下的yolov5！！！）下，然后在此处打开终端

打开终端输入：

python3 gen_wts.py -w yolov5n.pt -o yolov5n.wts     #&#x751F;&#x6210;wts&#x6587;&#x4EF6;&#xFF0C;&#x8981;&#x5148;&#x628A;yolov5n.pt&#x6587;&#x4EF6;&#x653E;&#x5728;&#x6B64;&#x5904;&#x518D;&#x53BB;&#x6267;&#x884C;
cd ~/tensorrtx/yolov5/      #&#x5982;&#x679C;&#x662F;&#x624B;&#x52A8;&#x4E0B;&#x8F7D;&#x7684;&#x540D;&#x79F0;&#x53EF;&#x80FD;&#x662F;tensorrtx-master
mkdir build
cd build
&#x5C06;&#x751F;&#x6210;&#x7684;wts&#x6587;&#x4EF6;&#x590D;&#x5236;&#x5230;build&#x4E0B;    #&#x624B;&#x52A8;&#x4E0B;&#x8F7D;&#x7684;&#xFF0C;&#x540D;&#x79F0;&#x4E3A;yolov5-master
cmake ..

make -j4
sudo ./yolov5 -s yolov5n.wts yolov5n.engine n #&#x751F;&#x6210;engine&#x6587;&#x4EF6;
sudo ./yolov5 -d yolov5n.engine ../samples/ #&#x6D4B;&#x8BD5;&#x56FE;&#x7247;&#x67E5;&#x770B;&#x6548;&#x679C;,&#x53D1;&#x73B0;&#x5728;&#x68C0;&#x6D4B;zidane.jpg&#x65F6;&#x6F0F;&#x68C0;&#xFF0C;&#x8FD9;&#x65F6;&#x53EF;&#x4EE5;&#x8FD4;&#x56DE;&#x4E0A;&#x4E00;&#x5C42;&#x6587;&#x4EF6;&#x5939;&#x627E;&#x5230;yolov5.cpp&#x4E2D;&#x7684;CONF_THRESH=0.25&#x518D;&#x8FDB;&#x5165;&#x5230;build&#x4E2D;&#x91CD;&#x65B0;make -j4&#xFF0C;&#x518D;&#x91CD;&#x65B0;&#x8FD0;&#x884C;&#x8BE5;&#x6307;&#x4EE4;&#x5373;&#x53EF;

3.调用USB摄像头

参考了该文章https://blog.csdn.net/weixin_54603153/article/details/120079220

（1）在tensorrtx/yolov5下备份yolov5.cpp文件，因为如果更换模型时重新推理加速时需要用到该文件。

（2）然后对yolov5.cpp文件修改为如下内容

修改了12行和342行

#include
#include
#include "cuda_utils.h"
#include "logging.h"
#include "common.hpp"
#include "utils.h"
#include "calibrator.h"

#define USE_FP32
#define DEVICE 0
#define NMS_THRESH 0.4
#define CONF_THRESH 0.25
#define BATCH_SIZE 1

static const int INPUT_H = Yolo::INPUT_H;
static const int INPUT_W = Yolo::INPUT_W;
static const int CLASS_NUM = Yolo::CLASS_NUM;
static const int OUTPUT_SIZE = Yolo::MAX_OUTPUT_BBOX_COUNT * sizeof(Yolo::Detection) / sizeof(float) + 1;
const char* INPUT_BLOB_NAME = "data";
const char* OUTPUT_BLOB_NAME = "prob";
static Logger gLogger;

char* my_classes[] = { "person", "bicycle", "car", "motorcycle", "airplane", "bus", "train", "truck", "boat", "traffic light",
         "fire hydrant", "stop sign", "parking meter", "bench", "bird", "cat", "dog", "horse", "sheep", "cow",
         "elephant", "bear", "zebra", "giraffe", "backpack", "umbrella", "handbag", "tie", "suitcase", "frisbee",
         "skis", "snowboard", "sports ball", "kite", "baseball bat", "baseball glove", "skateboard","surfboard",
         "tennis racket", "bottle", "wine glass", "cup", "fork", "knife", "spoon", "bowl", "banana", "apple",
         "sandwich", "orange", "broccoli", "carrot", "hot dog", "pizza", "donut", "cake", "chair", "couch",
         "potted plant", "bed", "dining table", "toilet", "tv", "laptop", "mouse", "remote", "keyboard", "cell phone",
         "microwave", "oven", "toaster", "sink", "refrigerator", "book", "clock", "vase", "scissors", "teddy bear",
         "hair drier", "toothbrush" };

static int get_width(int x, float gw, int divisor = 8) {

    if (int(x * gw) % divisor == 0) {
        return int(x * gw);
    }
    return (int(x * gw / divisor) + 1) * divisor;
}

static int get_depth(int x, float gd) {
    if (x == 1) {
        return 1;
    }
    else {
        return round(x * gd) > 1 ? round(x * gd) : 1;
    }
}

ICudaEngine* build_engine(unsigned int maxBatchSize, IBuilder* builder, IBuilderConfig* config, DataType dt, float& gd, float& gw, std::string& wts_name) {
    INetworkDefinition* network = builder->createNetworkV2(0U);

    ITensor* data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{ 3, INPUT_H, INPUT_W });
    assert(data);

    std::map<std::string, Weights> weightMap = loadWeights(wts_name);

    auto focus0 = focus(network, weightMap, *data, 3, get_width(64, gw), 3, "model.0");
    auto conv1 = convBlock(network, weightMap, *focus0->getOutput(0), get_width(128, gw), 3, 2, 1, "model.1");
    auto bottleneck_CSP2 = C3(network, weightMap, *conv1->getOutput(0), get_width(128, gw), get_width(128, gw), get_depth(3, gd), true, 1, 0.5, "model.2");
    auto conv3 = convBlock(network, weightMap, *bottleneck_CSP2->getOutput(0), get_width(256, gw), 3, 2, 1, "model.3");
    auto bottleneck_csp4 = C3(network, weightMap, *conv3->getOutput(0), get_width(256, gw), get_width(256, gw), get_depth(9, gd), true, 1, 0.5, "model.4");
    auto conv5 = convBlock(network, weightMap, *bottleneck_csp4->getOutput(0), get_width(512, gw), 3, 2, 1, "model.5");
    auto bottleneck_csp6 = C3(network, weightMap, *conv5->getOutput(0), get_width(512, gw), get_width(512, gw), get_depth(9, gd), true, 1, 0.5, "model.6");
    auto conv7 = convBlock(network, weightMap, *bottleneck_csp6->getOutput(0), get_width(1024, gw), 3, 2, 1, "model.7");
    auto spp8 = SPP(network, weightMap, *conv7->getOutput(0), get_width(1024, gw), get_width(1024, gw), 5, 9, 13, "model.8");

    auto bottleneck_csp9 = C3(network, weightMap, *spp8->getOutput(0), get_width(1024, gw), get_width(1024, gw), get_depth(3, gd), false, 1, 0.5, "model.9");
    auto conv10 = convBlock(network, weightMap, *bottleneck_csp9->getOutput(0), get_width(512, gw), 1, 1, 1, "model.10");

    auto upsample11 = network->addResize(*conv10->getOutput(0));
    assert(upsample11);
    upsample11->setResizeMode(ResizeMode::kNEAREST);
    upsample11->setOutputDimensions(bottleneck_csp6->getOutput(0)->getDimensions());

    ITensor* inputTensors12[] = { upsample11->getOutput(0), bottleneck_csp6->getOutput(0) };
    auto cat12 = network->addConcatenation(inputTensors12, 2);
    auto bottleneck_csp13 = C3(network, weightMap, *cat12->getOutput(0), get_width(1024, gw), get_width(512, gw), get_depth(3, gd), false, 1, 0.5, "model.13");
    auto conv14 = convBlock(network, weightMap, *bottleneck_csp13->getOutput(0), get_width(256, gw), 1, 1, 1, "model.14");

    auto upsample15 = network->addResize(*conv14->getOutput(0));
    assert(upsample15);
    upsample15->setResizeMode(ResizeMode::kNEAREST);
    upsample15->setOutputDimensions(bottleneck_csp4->getOutput(0)->getDimensions());

    ITensor* inputTensors16[] = { upsample15->getOutput(0), bottleneck_csp4->getOutput(0) };
    auto cat16 = network->addConcatenation(inputTensors16, 2);

    auto bottleneck_csp17 = C3(network, weightMap, *cat16->getOutput(0), get_width(512, gw), get_width(256, gw), get_depth(3, gd), false, 1, 0.5, "model.17");

    IConvolutionLayer* det0 = network->addConvolutionNd(*bottleneck_csp17->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.24.m.0.weight"], weightMap["model.24.m.0.bias"]);
    auto conv18 = convBlock(network, weightMap, *bottleneck_csp17->getOutput(0), get_width(256, gw), 3, 2, 1, "model.18");
    ITensor* inputTensors19[] = { conv18->getOutput(0), conv14->getOutput(0) };
    auto cat19 = network->addConcatenation(inputTensors19, 2);
    auto bottleneck_csp20 = C3(network, weightMap, *cat19->getOutput(0), get_width(512, gw), get_width(512, gw), get_depth(3, gd), false, 1, 0.5, "model.20");

    IConvolutionLayer* det1 = network->addConvolutionNd(*bottleneck_csp20->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.24.m.1.weight"], weightMap["model.24.m.1.bias"]);
    auto conv21 = convBlock(network, weightMap, *bottleneck_csp20->getOutput(0), get_width(512, gw), 3, 2, 1, "model.21");
    ITensor* inputTensors22[] = { conv21->getOutput(0), conv10->getOutput(0) };
    auto cat22 = network->addConcatenation(inputTensors22, 2);
    auto bottleneck_csp23 = C3(network, weightMap, *cat22->getOutput(0), get_width(1024, gw), get_width(1024, gw), get_depth(3, gd), false, 1, 0.5, "model.23");
    IConvolutionLayer* det2 = network->addConvolutionNd(*bottleneck_csp23->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.24.m.2.weight"], weightMap["model.24.m.2.bias"]);

    auto yolo = addYoLoLayer(network, weightMap, "model.24", std::vector<IConvolutionLayer*>{det0, det1, det2});
    yolo->getOutput(0)->setName(OUTPUT_BLOB_NAME);
    network->markOutput(*yolo->getOutput(0));

    builder->setMaxBatchSize(maxBatchSize);
    config->setMaxWorkspaceSize(16 * (1 << 20));
#if defined(USE_FP16)
    config->setFlag(BuilderFlag::kFP16);
#elif defined(USE_INT8)
    std::cout << "Your platform support int8: " << (builder->platformHasFastInt8() ? "true" : "false") << std::endl;
    assert(builder->platformHasFastInt8());
    config->setFlag(BuilderFlag::kINT8);
    Int8EntropyCalibrator2* calibrator = new Int8EntropyCalibrator2(1, INPUT_W, INPUT_H, "./coco_calib/", "int8calib.table", INPUT_BLOB_NAME);
    config->setInt8Calibrator(calibrator);
#endif

    std::cout << "Building engine, please wait for a while..." << std::endl;
    ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
    std::cout << "Build engine successfully!" << std::endl;

    network->destroy();

    for (auto& mem : weightMap)
    {
        free((void*)(mem.second.values));
    }

    return engine;
}

ICudaEngine* build_engine_p6(unsigned int maxBatchSize, IBuilder* builder, IBuilderConfig* config, DataType dt, float& gd, float& gw, std::string& wts_name) {
    INetworkDefinition* network = builder->createNetworkV2(0U);

    ITensor* data = network->addInput(INPUT_BLOB_NAME, dt, Dims3{ 3, INPUT_H, INPUT_W });
    assert(data);

    std::map<std::string, Weights> weightMap = loadWeights(wts_name);

    auto focus0 = focus(network, weightMap, *data, 3, get_width(64, gw), 3, "model.0");
    auto conv1 = convBlock(network, weightMap, *focus0->getOutput(0), get_width(128, gw), 3, 2, 1, "model.1");
    auto c3_2 = C3(network, weightMap, *conv1->getOutput(0), get_width(128, gw), get_width(128, gw), get_depth(3, gd), true, 1, 0.5, "model.2");
    auto conv3 = convBlock(network, weightMap, *c3_2->getOutput(0), get_width(256, gw), 3, 2, 1, "model.3");
    auto c3_4 = C3(network, weightMap, *conv3->getOutput(0), get_width(256, gw), get_width(256, gw), get_depth(9, gd), true, 1, 0.5, "model.4");
    auto conv5 = convBlock(network, weightMap, *c3_4->getOutput(0), get_width(512, gw), 3, 2, 1, "model.5");
    auto c3_6 = C3(network, weightMap, *conv5->getOutput(0), get_width(512, gw), get_width(512, gw), get_depth(9, gd), true, 1, 0.5, "model.6");
    auto conv7 = convBlock(network, weightMap, *c3_6->getOutput(0), get_width(768, gw), 3, 2, 1, "model.7");
    auto c3_8 = C3(network, weightMap, *conv7->getOutput(0), get_width(768, gw), get_width(768, gw), get_depth(3, gd), true, 1, 0.5, "model.8");
    auto conv9 = convBlock(network, weightMap, *c3_8->getOutput(0), get_width(1024, gw), 3, 2, 1, "model.9");
    auto spp10 = SPP(network, weightMap, *conv9->getOutput(0), get_width(1024, gw), get_width(1024, gw), 3, 5, 7, "model.10");
    auto c3_11 = C3(network, weightMap, *spp10->getOutput(0), get_width(1024, gw), get_width(1024, gw), get_depth(3, gd), false, 1, 0.5, "model.11");

    auto conv12 = convBlock(network, weightMap, *c3_11->getOutput(0), get_width(768, gw), 1, 1, 1, "model.12");
    auto upsample13 = network->addResize(*conv12->getOutput(0));
    assert(upsample13);
    upsample13->setResizeMode(ResizeMode::kNEAREST);
    upsample13->setOutputDimensions(c3_8->getOutput(0)->getDimensions());
    ITensor* inputTensors14[] = { upsample13->getOutput(0), c3_8->getOutput(0) };
    auto cat14 = network->addConcatenation(inputTensors14, 2);
    auto c3_15 = C3(network, weightMap, *cat14->getOutput(0), get_width(1536, gw), get_width(768, gw), get_depth(3, gd), false, 1, 0.5, "model.15");

    auto conv16 = convBlock(network, weightMap, *c3_15->getOutput(0), get_width(512, gw), 1, 1, 1, "model.16");
    auto upsample17 = network->addResize(*conv16->getOutput(0));
    assert(upsample17);
    upsample17->setResizeMode(ResizeMode::kNEAREST);
    upsample17->setOutputDimensions(c3_6->getOutput(0)->getDimensions());
    ITensor* inputTensors18[] = { upsample17->getOutput(0), c3_6->getOutput(0) };
    auto cat18 = network->addConcatenation(inputTensors18, 2);
    auto c3_19 = C3(network, weightMap, *cat18->getOutput(0), get_width(1024, gw), get_width(512, gw), get_depth(3, gd), false, 1, 0.5, "model.19");

    auto conv20 = convBlock(network, weightMap, *c3_19->getOutput(0), get_width(256, gw), 1, 1, 1, "model.20");
    auto upsample21 = network->addResize(*conv20->getOutput(0));
    assert(upsample21);
    upsample21->setResizeMode(ResizeMode::kNEAREST);
    upsample21->setOutputDimensions(c3_4->getOutput(0)->getDimensions());
    ITensor* inputTensors21[] = { upsample21->getOutput(0), c3_4->getOutput(0) };
    auto cat22 = network->addConcatenation(inputTensors21, 2);
    auto c3_23 = C3(network, weightMap, *cat22->getOutput(0), get_width(512, gw), get_width(256, gw), get_depth(3, gd), false, 1, 0.5, "model.23");

    auto conv24 = convBlock(network, weightMap, *c3_23->getOutput(0), get_width(256, gw), 3, 2, 1, "model.24");
    ITensor* inputTensors25[] = { conv24->getOutput(0), conv20->getOutput(0) };
    auto cat25 = network->addConcatenation(inputTensors25, 2);
    auto c3_26 = C3(network, weightMap, *cat25->getOutput(0), get_width(1024, gw), get_width(512, gw), get_depth(3, gd), false, 1, 0.5, "model.26");

    auto conv27 = convBlock(network, weightMap, *c3_26->getOutput(0), get_width(512, gw), 3, 2, 1, "model.27");
    ITensor* inputTensors28[] = { conv27->getOutput(0), conv16->getOutput(0) };
    auto cat28 = network->addConcatenation(inputTensors28, 2);
    auto c3_29 = C3(network, weightMap, *cat28->getOutput(0), get_width(1536, gw), get_width(768, gw), get_depth(3, gd), false, 1, 0.5, "model.29");

    auto conv30 = convBlock(network, weightMap, *c3_29->getOutput(0), get_width(768, gw), 3, 2, 1, "model.30");
    ITensor* inputTensors31[] = { conv30->getOutput(0), conv12->getOutput(0) };
    auto cat31 = network->addConcatenation(inputTensors31, 2);
    auto c3_32 = C3(network, weightMap, *cat31->getOutput(0), get_width(2048, gw), get_width(1024, gw), get_depth(3, gd), false, 1, 0.5, "model.32");

    IConvolutionLayer* det0 = network->addConvolutionNd(*c3_23->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.33.m.0.weight"], weightMap["model.33.m.0.bias"]);
    IConvolutionLayer* det1 = network->addConvolutionNd(*c3_26->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.33.m.1.weight"], weightMap["model.33.m.1.bias"]);
    IConvolutionLayer* det2 = network->addConvolutionNd(*c3_29->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.33.m.2.weight"], weightMap["model.33.m.2.bias"]);
    IConvolutionLayer* det3 = network->addConvolutionNd(*c3_32->getOutput(0), 3 * (Yolo::CLASS_NUM + 5), DimsHW{ 1, 1 }, weightMap["model.33.m.3.weight"], weightMap["model.33.m.3.bias"]);

    auto yolo = addYoLoLayer(network, weightMap, "model.33", std::vector<IConvolutionLayer*>{det0, det1, det2, det3});
    yolo->getOutput(0)->setName(OUTPUT_BLOB_NAME);
    network->markOutput(*yolo->getOutput(0));

    builder->setMaxBatchSize(maxBatchSize);
    config->setMaxWorkspaceSize(16 * (1 << 20));
#if defined(USE_FP16)
    config->setFlag(BuilderFlag::kFP16);
#elif defined(USE_INT8)
    std::cout << "Your platform support int8: " << (builder->platformHasFastInt8() ? "true" : "false") << std::endl;
    assert(builder->platformHasFastInt8());
    config->setFlag(BuilderFlag::kINT8);
    Int8EntropyCalibrator2* calibrator = new Int8EntropyCalibrator2(1, INPUT_W, INPUT_H, "./coco_calib/", "int8calib.table", INPUT_BLOB_NAME);
    config->setInt8Calibrator(calibrator);
#endif

    std::cout << "Building engine, please wait for a while..." << std::endl;
    ICudaEngine* engine = builder->buildEngineWithConfig(*network, *config);
    std::cout << "Build engine successfully!" << std::endl;

    network->destroy();

    for (auto& mem : weightMap)
    {
        free((void*)(mem.second.values));
    }

    return engine;
}

void APIToModel(unsigned int maxBatchSize, IHostMemory** modelStream, float& gd, float& gw, std::string& wts_name) {

    IBuilder* builder = createInferBuilder(gLogger);
    IBuilderConfig* config = builder->createBuilderConfig();

    ICudaEngine* engine = build_engine(maxBatchSize, builder, config, DataType::kFLOAT, gd, gw, wts_name);
    assert(engine != nullptr);

    (*modelStream) = engine->serialize();

    engine->destroy();
    builder->destroy();
    config->destroy();
}

void doInference(IExecutionContext& context, cudaStream_t& stream, void** buffers, float* input, float* output, int batchSize) {

    CUDA_CHECK(cudaMemcpyAsync(buffers[0], input, batchSize * 3 * INPUT_H * INPUT_W * sizeof(float), cudaMemcpyHostToDevice, stream));
    context.enqueue(batchSize, buffers, stream, nullptr);
    CUDA_CHECK(cudaMemcpyAsync(output, buffers[1], batchSize * OUTPUT_SIZE * sizeof(float), cudaMemcpyDeviceToHost, stream));
    cudaStreamSynchronize(stream);
}

bool parse_args(int argc, char** argv, std::string& engine) {
    if (argc < 3) return false;
    if (std::string(argv[1]) == "-v" && argc == 3) {
        engine = std::string(argv[2]);
    }
    else {
        return false;
    }
    return true;
}

int main(int argc, char** argv) {
    cudaSetDevice(DEVICE);

    std::string engine_name = "";

    if (!parse_args(argc, argv, engine_name)) {
        std::cerr << "arguments not right!" << std::endl;
        std::cerr << "./yolov5 -v [.engine] // run inference with camera" << std::endl;
        return -1;
    }

    std::ifstream file(engine_name, std::ios::binary);
    if (!file.good()) {
        std::cerr << " read " << engine_name << " error! " << std::endl;
        return -1;
    }
    char* trtModelStream{ nullptr };
    size_t size = 0;
    file.seekg(0, file.end);
    size = file.tellg();
    file.seekg(0, file.beg);
    trtModelStream = new char[size];
    assert(trtModelStream);
    file.read(trtModelStream, size);
    file.close();

    static float data[BATCH_SIZE * 3 * INPUT_H * INPUT_W];

    static float prob[BATCH_SIZE * OUTPUT_SIZE];
    IRuntime* runtime = createInferRuntime(gLogger);
    assert(runtime != nullptr);
    ICudaEngine* engine = runtime->deserializeCudaEngine(trtModelStream, size);
    assert(engine != nullptr);
    IExecutionContext* context = engine->createExecutionContext();
    assert(context != nullptr);
    delete[] trtModelStream;
    assert(engine->getNbBindings() == 2);
    void* buffers[2];

    const int inputIndex = engine->getBindingIndex(INPUT_BLOB_NAME);
    const int outputIndex = engine->getBindingIndex(OUTPUT_BLOB_NAME);
    assert(inputIndex == 0);
    assert(outputIndex == 1);

    CUDA_CHECK(cudaMalloc(&buffers[inputIndex], BATCH_SIZE * 3 * INPUT_H * INPUT_W * sizeof(float)));
    CUDA_CHECK(cudaMalloc(&buffers[outputIndex], BATCH_SIZE * OUTPUT_SIZE * sizeof(float)));

    cudaStream_t stream;
    CUDA_CHECK(cudaStreamCreate(&stream));

    cv::VideoCapture capture("/home/cao-yolox/yolov5/tensorrtx-master/yolov5/samples/1.mp4");   #修改为自己要检测的视频或者图片，注意要写全路径，如果调用摄像头，则括号内的参数设为0，注意引号要去掉。

    if (!capture.isOpened()) {
        std::cout << "Error opening video stream or file" << std::endl;
        return -1;
    }

    int key;
    int fcount = 0;
    while (1)
    {
        cv::Mat frame;
        capture >> frame;
        if (frame.empty())
        {
            std::cout << "Fail to read image from camera!" << std::endl;
            break;
        }
        fcount++;

        for (int b = 0; b < fcount; b++) {

            cv::Mat img = frame;
            if (img.empty()) continue;
            cv::Mat pr_img = preprocess_img(img, INPUT_W, INPUT_H);
            int i = 0;
            for (int row = 0; row < INPUT_H; ++row) {
                uchar* uc_pixel = pr_img.data + row * pr_img.step;
                for (int col = 0; col < INPUT_W; ++col) {
                    data[b * 3 * INPUT_H * INPUT_W + i] = (float)uc_pixel[2] / 255.0;
                    data[b * 3 * INPUT_H * INPUT_W + i + INPUT_H * INPUT_W] = (float)uc_pixel[1] / 255.0;
                    data[b * 3 * INPUT_H * INPUT_W + i + 2 * INPUT_H * INPUT_W] = (float)uc_pixel[0] / 255.0;
                    uc_pixel += 3;
                    ++i;
                }
            }
        }

        auto start = std::chrono::system_clock::now();
        doInference(*context, stream, buffers, data, prob, BATCH_SIZE);
        auto end = std::chrono::system_clock::now();

        int fps = 1000.0 / std::chrono::duration_cast<std::chrono::milliseconds>(end - start).count();
        std::vector<std::vector<Yolo::Detection>> batch_res(fcount);
        for (int b = 0; b < fcount; b++) {
            auto& res = batch_res[b];
            nms(res, &prob[b * OUTPUT_SIZE], CONF_THRESH, NMS_THRESH);
        }
        for (int b = 0; b < fcount; b++) {
            auto& res = batch_res[b];

            for (size_t j = 0; j < res.size(); j++) {
                cv::Rect r = get_rect(frame, res[j].bbox);
                cv::rectangle(frame, r, cv::Scalar(0x27, 0xC1, 0x36), 2);
                std::string label = my_classes[(int)res[j].class_id];
                cv::putText(frame, label, cv::Point(r.x, r.y - 1), cv::FONT_HERSHEY_PLAIN, 1.2, cv::Scalar(0xFF, 0xFF, 0xFF), 2);
                std::string jetson_fps = "Jetson Nano FPS: " + std::to_string(fps);
                cv::putText(frame, jetson_fps, cv::Point(11, 80), cv::FONT_HERSHEY_PLAIN, 3, cv::Scalar(0, 0, 255), 2, cv::LINE_AA);
            }

        }
        cv::imshow("yolov5", frame);
        key = cv::waitKey(1);
        if (key == 'q') {
            break;
        }
        fcount = 0;
    }

    capture.release();

    cudaStreamDestroy(stream);
    CUDA_CHECK(cudaFree(buffers[inputIndex]));
    CUDA_CHECK(cudaFree(buffers[outputIndex]));

    context->destroy();
    engine->destroy();
    runtime->destroy();

    return 0;
}

4.重新编译

进入到buid下重新make。注意只要修改了yolov5.cpp就要重新make。
执行

sudo ./yolov5 -v yolov5n.engine #&#x6CE8;&#x610F;&#x8981;&#x63D0;&#x524D;&#x63D2;&#x597D;&#x6444;&#x50CF;&#x5934;

问题：出现Failed to load module “canberra-gtk-module”
解决：

sudo apt-get install libcanberra-gtk-module

5.效果

如下的测试，是在一个公用的行人检测的视频上进行的，如果想用可在如下链接下载：
链接：https://pan.baidu.com/s/1HivF1OifVA8pHnGKtkXPfg
提取码：jr7o

; 七、参考

Original: https://blog.csdn.net/carrymingteng/article/details/120978053
Author: carrymingteng
Title: Jetson Nano配置YOLOv5并实现FPS=25

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/651754/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

二十八. 智能驾驶笔记之基于PointNet++的三维点云分类和语义分割

第一部分基于三维点云的分类和语义分割介绍第二部分 PointNet和PointNet++ 第三部分 PointNet++关键代码分析第一部分基于三维点云的分类和语义分割介绍…

人工智能 2023年7月1日
0087
论大数据视角下的地球空间信息学的机遇与挑战

论大数据视角下的地球空间信息学的机遇与挑战李德仁1,2, 张过2, 蒋永华1, 沈欣2, 刘伟玲2 1 武汉大学遥感信息工程学院，湖北武汉 430079 2 武汉大学测绘遥感信…

人工智能 2023年7月16日
0074
Text to image论文精读SSA-GAN：基于语义空间感知的文本图像生成 Text to Image Generation with Semantic-Spatial Aware GAN

目录一、原文摘要二、为什么提出SSA-GAN 三、SSA-GAN * 3.1、文本编码器 3.2、SSACN 块 – 3.2.1、上采样块 3.2.2、掩码预测器 …

人工智能 2023年7月28日
0066
二、Jetson Xavier NX上运行例程

二、Jetson Xavier NX上运行例程 * – 换源 – 安装Jetson-inference – 测试官方例程： – + …

人工智能 2023年7月9日
0064
对比excel，轻松学习python数据分析(8：数据运算、9：时间序列）

1.算术运算 2.比较运算比较是在列与列之间进行 3.汇总运算 count 非空值计算 1.某一个区域中非空（单元格）数值的个数 2.直接在整个数据表上调用 count()函数，…

人工智能 2023年6月11日
0073
pytorch的eval()失效剖析及解决方案

一般情况下，模型在训练的时候，需要保证是train()模式，而在评估时需要保证是eval()模式。因为很多时候，模型中会包含dropout、BN的操作，而eval()模式下这两个功…

人工智能 2023年7月22日
0039
Python数据分析实战（2）——探索2012欧洲杯数据

个人复习总结（jupyter） 1导入必要的库和创建数据 import pandas as pd 路径=’D:/数…

人工智能 2023年7月18日
00120
yolov5s模型转tensorrt+deepstream检测+CSI和USB摄像头检测

软硬件版本 ubuntu 18.04 Jetson Nano 4GJP 4.5.1CUDA 10.2TensorRT 7.1.3.0 python 3.6 前言把自己训练好的yo…

人工智能 2023年7月13日
00113
Go语言学习笔记-A Tour of Go 练习笔记-Loops and Functions

Exercise: Loops and Functions 题目： As a way to play with functions and loops, let’s i…

人工智能 2023年6月28日
0065
Tensorflow (5) Word2Vec

图解Word2vec – 知乎（原文：The Illustrated Word2vec – Jay Alammar – Visualizing machine le…

人工智能 2023年5月24日
0056
（37）Verilog实现RAM【伪双端口】

（37）Verilog实现RAM【伪双端口】 1.1 目录 1）目录 2）FPGA简介 3）Verilog HDL简介 4）Verilog实现RAM【伪双端口】 5）结语 1.2 …

人工智能 2023年6月26日
0060
faster R-CNN之RPN

目标检测算法依赖于region proposals算法来假设目标位置，随着SPP Net和fast R-CNN的改进，region proposals已经成为目标检测算法的瓶颈。 …

人工智能 2023年7月12日
0073
OpenCV-如何刷新动态图像

文章目录 * – 【问题描述】 – 【解决方案1】 – 【解决方案2】超简单！！【问题描述】【C++解决】我都不知道该如何准确去描述这个…

人工智能 2023年7月19日
0054
ABB机器人RobotStudio编程指令大全

ABB编程指令大全指令类型指令说明程序的调用 ProcCall 调用例行程序程序的调用 CallByVar 经过带变量的例行程序名称调用例行程序程序的调用 RETURN 返…

人工智能 2023年7月27日
00104
MobileNetV2神经网络

MobileNetV2神经网络 MobileNet是一个轻量化网络的经典网络，自诞生以来就被广泛应用于工业界。2016年，Google第一次提出了MobileNetV1，凭借深度可…

人工智能 2023年7月14日
0081
YOLOV2论文详解

本文主要介绍了 YOLOV2的 Better和 Faster部分 Better YOLOV1存在如下两个缺点：定位误差大与基于 region proposal的方法相比，召回率…

人工智能 2023年7月10日
0068

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Jetson Nano配置YOLOv5并实现FPS=25

文章目录

一、版本说明

二、配置CUDA

三、修改Nano板显存

1.打开终端输入：

2.修改nvzramconfig.sh文件

3.重启Jetson Nano

4.终端中输入：

四、配置Pytorch1.8

1.下载torch-1.8.0-cp36-cp36m-linux_aarch64.whl

2.安装所需的依赖包及pytorch

五、搭建yolov5环境

; 六、利用tensorrtx加速推理

1.下载tensorrtx

2.编译

3.调用USB摄像头

（1）在tensorrtx/yolov5下备份yolov5.cpp文件，因为如果更换模型时重新推理加速时需要用到该文件。

（2）然后对yolov5.cpp文件修改为如下内容

4.重新编译

5.效果

; 七、参考

大家都在看