【目标检测】YOLOv6理论解读+实践测试VisDrone数据集

2023年7月9日下午6:17 • 人工智能 • 阅读 104

前言

本篇博文将简单总结YOLOv6的原理，并使用YOLOv6对VisDrone数据集进行训练。

背景

YOLOv6是美团视觉智能部研发的一款目标检测框架，致力于工业应用。
根据官方[1]提供的测试结果，YOLOv6的综合性能效果超越了YOLOv5和YOLOX，如下图所示，YOLOv6s在COCO验证集上的mAP数值最高。

; 网络结构优化

由于YOLOv6没有相关论文，下面这些创新点描述均参考自官方的介绍博文[1]

EfficientRep Backbone

YOLOv5/YOLOX 使用的 Backbone 和 Neck 都基于 CSPNet 搭建，采用了多分支的方式和残差结构。对于 GPU 等硬件来说，这种结构会一定程度上增加延时，同时减小内存带宽利用率。因此，YOLOv6对Backbone 和 Neck 都进行了重新设计。

Backbone部分，提出了一种叫做 EfficientRep Backbone 的结构，结构图如下：

图里的RepConv，RepBlock，SimSPPF均为全新的结构，这里不作更细的探究。

; Rep-PAN

在 Neck 设计方面，YOLOv6提出了一种命名为Rep-PAN的结构，结构示意图如下：

Decoupled Head

在检测头方面，YOLOv6借鉴了YOLOX的思路，采用了解耦检测头（Decoupled Head）结构，并对其进行精简。两者对比图如下：

; 其它优化策略

Anchor-free

Anchor-free也是借鉴YOLOX，即取消从YOLOv2一直以来的锚框(Anchor)机制，直接返回出目标的位置信息，代价是不太稳定，好处是计算能够更快。

SimOTA

SimOTA是一种正负样本匹配策略，也是YOLOX提出的策略方法，在我之前的博文【目标检测】从YOLOv1到YOLOX(理论梳理)也提到过。
简单来说，正负样本判断需要解决的问题就是当预测出来的框太多时如何去除低质量框的问题，保留高质量的框(正样本)去参与运算。
SimOTA定义的计算公式如下：

对于每一个预测框，分别计算其与真实框的IOU和类别损失，然后加权得到总体损失。然后将各个框和真实框的iou排序，将所有框的iou相加取整，得到正样本的类别个数。
比如，下图中[2]，取整后的结果为2，那就选取前两个作为正样本。

; SIoU

之前的边界框回归损失包括IoU、GIoU、CIoU、DIoU。YOLOv6 引入的 SIoU 损失函数通过引入了所需回归之间的向量角度，重新定义了距离损失。
相关论文可参考：https://arxiv.org/abs/2205.12740

从理论上看，YOLOv6并没有太多新东西，下面就进入实践环节，看看使用效果怎么样。

实践使用

总体看YOLOv6和YOLOv5的代码大致类似，不过很多小地方做了修改。
比如模型的训练、测试、检测函数被藏在了tools的文件夹下，这导致后面输入文件路径都很别扭，比如在 inferer.py里面，路径的少了个跳出的步骤，需要手动修改一下。

; 数据集改造

对于数据集的输入，YOLOv6也做了改造，以至于在【目标检测】YOLOv5跑通VisDrone数据集文中的VisDrone数据集不能直接拿来用，需要做下面这番改造。

图片数据和标签需要单独建个大的文件夹，下面分别建三个小文件夹，并且名称固定为train,test,val。

具体的原因可以看下面这几行加载数据的代码。

我处理好的VisDrone数据集也整理在这，读者可直接下载：
https://pan.baidu.com/s/1u0OZ05r48Yi6Wwi7TcqI_g?pwd=8888
;

注：VisDrone里面默认是只有xml格式的标签，txt标签是我通过脚本生成的，具体的方式见我上一篇博文【目标检测】YOLOv5跑通VisDrone数据集

这个处理完之后，和YOLOv5一样，需要在data文件夹下新建mydata.yaml
输入下面内容：

train: D:/Dataset/VisDrone_for_YOLOv6/images/train
val: D:/Dataset/VisDrone_for_YOLOv6/images/val
test: D:/Dataset/VisDrone_for_YOLOv6/images/test

is_coco: False

nc: 10
names: [ 'pedestrian', 'people', 'bicycle', 'car', 'van', 'truck', 'tricycle', 'awning-tricycle', 'bus', 'motor' ]

这里的路径改成自己的。

效果测试

YOLOv6总共有yolov6s，yolov6n和yolov6t三种模型。我使用yolov6s在VisDrone数据集上训练了100个epoch，共耗时13个小时(RTX 2060显卡)，训练速度比起YOLOv5而言，提升了不少。
测试下来，其IoU=0.50 AP为32.5%，IoU=0.50:0.95 AP为17.4%，这数据还不如前面的YOLOv5两个版本(之前的数据在我上篇博文内【目标检测】TPH-YOLOv5：基于transformer的改进yolov5的无人机目标检测)

下面来测试下视频。

结果报错：

Switch model to deploy modality.

查阅官方的issue，原来目前推理只支持图片，暂不支持视频。。

于是输入VisDrone测试集上的图片进行检测，效果如下：

第一幅图检测效果还不错，大部分目标都识别出来。
第二幅图结果却令人意外，仅检测出三个目标，其它的自行车目标全部漏检！

我的感受

YOLOv6主打的是模型的部署。在项目文件中，它支持导出ONNX、TensorRT等格式的文件，在官方出具的实验对比上看，实验环境基本上是在nano那种嵌入式设备。可能YOLOv6在真实的生产环境中更有优势，但在纯粹的算法效果上，优势并不明显。并且，好多内容都是借鉴YOLOX，被戏称为”YOLOX PLUS”也不为过。
目前YOLOv4的作者团队又推出YOLOv7，YOLOv6则沦为过渡之作，而它总体看来推出得也略显仓促，显然还没完善好就推出来占坑。不过，作为国人推出的研究成果，依然期待其后续的发展完善。

代码备份

注意，本篇博文观点仅仅是我在使用yolov6s.pt训练了100个epoch得出的结论，具体的性能有待后续测试。这里顺便进行代码备份(包含3个模型的预训练权重)：
https://pan.baidu.com/s/1GIOZq3EgzzVDjs3zZP_dKQ?pwd=8888

Reference

【1】https://blog.csdn.net/MeituanTech/article/details/125437630
【2】https://blog.csdn.net/lzzzzzzm/article/details/123133069

Original: https://blog.csdn.net/qq1198768105/article/details/125958545
Author: zstar-_
Title: 【目标检测】YOLOv6理论解读+实践测试VisDrone数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/681199/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习评估指标之目标检测——（yolov5 可视化训练结果以及result.txt解析）

1、机器学习模型评估指标总结机器学习的数据集一般被划分为训练集和测试集，训练集用于训练模型，测试集则用于评估模型。针对不同的机器学习问题（分类、回归、排序、序列预测等），评估指标…

人工智能 2023年7月9日
00190
iOS逆向之深入解析如何计算+load方法的耗时

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月1日
0091
AI自主图像生成之 stable-diffusion—运行效果展示

stable-diffusion用途：输入文字描述，输出对应图片 The chicken with the hair parted in the middle and the su…

人工智能 2023年7月26日
0088
机器学习-常用回归算法归纳(全网之最)

文章目录前言一元线性回归多元线性回归局部加权线性回归多项式回归 Lasso回归 & Ridge回归 * Lasso回归 Ridge回归岭回归和lasso回归的区…

人工智能 2023年6月22日
00106
【Pandas总结】第八节 Pandas 合并数据集_pd.merge()

文章目录 * – 写在前面 – pd.merge()的使用方法 – + 一、数据准备 + 二、参数left 与 right + 三、参数 on …

人工智能 2023年7月7日
0077
神经网络hopfield算法实例,hopfield和bp神经网络区别

1、神经网络优缺点，优点：（1）具有自学习功能。例如实现图像识别时，只在先把许多不同的图像样板和对应的应识别的结果输入人工神经网络，网络就会通过自学习功能，慢慢学会识别类似的图…

人工智能 2023年7月28日
0044
数据分析–预测医疗费用

背景不同年龄性别的人医疗费用数据集，患者的治疗费用由诸多因素决定。如诊断、居住城市、年龄等。该文章采用线性回归、多项式回归、随机森林三种模型进行患者医疗花费的预测数据来源数据来源…

人工智能 2023年6月19日
0093
python读取图像的几种方式

python读取图像的几种方式本文介绍几种基于python的图像读取方式：基于PIL库的图像读取、保存和显示基于opencv-python的图像读取、保存和显示基于matp…

人工智能 2023年7月22日
0046
DataFrame数据的多种遍历方法

遍历DataFrame的三种方法： iteritem()方法返回一个 iterrow()方法返回一个 itertuple()方法返回一个 data = {‘state’:[‘Ohi…

人工智能 2023年7月6日
0073
Swin Transformer Object Detection 目标检测-1——环境搭建详细教程

文章目录 * – + 一、所需软件（包）介绍 + 二、环境安装 + * 0. 版本选择 * 1. VS 2019 安装 * 2. 创建conda 虚拟环境 * &#82…

人工智能 2023年6月23日
00116
各类优化算法入门优秀论文总结目录

持续更新中，论文不一定来自该领域的优秀会议或期刊，但都是我学习过程中感觉最适合新手入门演化计算，优化领域的论文。涉及的领域包括但不仅限于各类元启发式算法，群智能优化算法，遗传算…

人工智能 2023年7月17日
0048
开课吧深度学习与神经网络

在现实世界中，许多问题可以归类为分类或识别或选择。例如，走，下一个棋子会掉在哪里。为了研究这类问题，学术界开发了一种叫做”神经网络”的学习策略。这个词听起来…

人工智能 2023年7月14日
0063
集群报错 /lib64/libstdc++.so.6: version `GLIBCXX_3.4.29‘ not found

集群报错：ImportError: /lib64/libstdc++.so.6: version GLIBCXX_3.4.29' not found</p> …

人工智能 2023年6月16日
0080
有监督学习算法中常用的评估指标有哪些

评估指标介绍在有监督学习算法中，我们常常需要评估模型的性能和预测能力。为了实现这一目标，我们使用一些评估指标，用于衡量模型的准确性、精确性、召回率和F1分数等。以下是一些常用的…

人工智能 2024年1月2日
0044
【简述】【图】P类问题、NP类问题、NP完全问题和NP难问题

P类问题（Polynomial Problem） P类问题是指一类能够用确定性算法在多项式时间内求解的判定问题。其实，在非正式的定义中，我们可以把那些在多项式时间内求解的问题当作…

人工智能 2023年7月26日
0075
NeRF原理解析

文章目录引言 NeRF资料技术基础梳理 * 算法概览用神经辐射场（Neural Radiance Field）来表示场景基于辐射场的体素渲染算法 – 经典体素渲…

人工智能 2023年5月26日
00105

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31