【yolov6系列一】深度解析网络架构

2023年7月26日上午12:38 • 人工智能 • 阅读 56

在yolov5霸屏计算机视觉领域很久时，六月处美团开源了yolov6，并号称在精度和速度上均超越其他同量级的计算机视觉模型，刚刚瞅了一眼，star已经超过2.8k,脑子里莫名冒出一个词：”国货之光”。

网上基于yolov6的解读有很多，文末会附上美团的官方解读和开源代码的github链接。文本开始yolov6系列，先和大家分享下整个yolov6的网络架构（基于tag0.1版本的yolov6s），后续再基于各个模块根据自己的理解分享给大家。

整体框架

大家如需图中ppt使用，请关注公众号，后台回复ppt 添加微信领取

以上为yolov6s整体的网络架构，从图中可看出yolov6网络由四个部分组成：input，backbone，neck以及head。对各个部分的功能和yolov5相同，如backbone用于提取特征，head用于预测。

根据上图的架构图走一遍网络流程：先对输入的图片预处理，对齐成640640大小的RGB图片，输入到backbone网络中，根据backbone网络中的三层输出，在neck层通过Rep-PAN网络继续输出三层不同size大小的 feature map（以下简称fm）*，输入到最后的head层中，对图像检测的三类任务（分类、前后背景分类、边框）预测，输出最后的结果。

; backbone

yolov6s的backbone层参见RepVGG网络的backbone[3],如上图所示（ s表示stride, o为outchannel, i为inchannel, 其中o=i表示outchannel=inchannel, o≠i表示outchannel与inchannel无相关性，并非其值一定不相等），由若干RepVGG block(以下RepVGG block简称RVB, RepBlock简称RB)组成。

RB为几个RVB的串联，其中第一个RVB用于特征层的size变化，后面N个RVB 用于特征层的融合，size保持不变。

stem为s=2的RVB，同时输入输出的channel不相同，这样stem的RVB变成：

同时ERBlock5中增加SPPF层：

其中 SConv是有conv+BN+ReLu组成：
【yolov6系列一】深度解析网络架构

这样 SPPF网络则先通过一个SConv层，特征图h,w的size不变，outchannel变成inchannel的一半，输出做为一个分支，而后经过3个maxpooling层，每个maxpooling的kernel=5,s=1,padding=kernel//2, 每经过一个maxpooling后，fm size均不变，并做为分支。而后通过cat将几个分支在channel维度上相加，得到的size较于SPPF的输入，h,w不变，channel为输入的2倍，最后再通过一个SConv层，通道减半，使得输入和输出的fm size不变。

整个backbone层流程为：输入640 _640_3的图片，通过stem层（s=2）输出为320 _320_32，后面接几个ERBlock,每个ERBlock均做特征层的下采样和channel的增大，每个ERBlock由一个RVB和一个RB组成（ERBlock5多加SPPF层），在RVB中做特征层的下采样，同时channel增大，在RB中对特征层充分融合后输出，最后backbone输出三个fm分别为(20 _20_512, 40 _40_128, 80 _80_64)。

neck

Neck层美团官方称其为Rep-PAN,是基于PAN的拓扑方法，如上图所示，类似一种”U”型结构，其中U型左侧从上到下fm的h,w增大，右侧从下到上fm的h,w减小，其中Upsample上采样基于torch官方自带的转置卷积实现：
【yolov6系列一】深度解析网络架构

整个neck层的流程为，U型左侧，从ERB5输出20 _20_512的fm,通过SConv 变成20 _20_128大小，上采样后h,w较之前增大一倍后与ERB4的输出在channel层上concate后fm变成40 _4_384，通过一个RB（s=1, o≠i）后，输出 40 _4_128，重复上述步骤后，输出80 _80_64的fm。U型右侧，将80 _80_64的fm先SConv下采样，得到40 _40_64的fm,与U型左侧h,w一致的fm在channel层上concate后，通过一个RB(s=1, o≠i)，输出第二个fm，重复U型右侧以上步骤，输出第三个fm。至此，neck层输出三个fm分别为（20 _20_256, 40 _40_128, 80 _80_64）.

; Head

如上图，head基于三层输出预测，分别对应了大小不同的从大到小的感受野。

其中 BConv是由conv+bn+SiLu组成：

整个head借鉴了yolox中的解耦头设计，并对其做了改进，head流程如下：从neck层输出三个分支，对于每个分支，先对输出fm通过BConv层，做fm的特征融合后，分成两个分支一个分支通过BConv+Conv完成分类任务的预测，另外一个分支先通过BConv融合特征后再分成两个分支，一个分支通过Conv完成边框的回归，一个分支通过Conv完成前后背景的分类，至此三个分支再通过concate在channel层上融合，输出未经后处理的预测结果。

结语

以上为个人理解，yolov6s在0.1版本上的整体网络架构，如有理解偏差，欢迎交流，后续根据yolov6中各个模块中的详细的原理以及代码继续更新，希望对大家有帮助。
参考：
[1]https://mp.weixin.qq.com/s/RrQCP4pTSwpTmSgvly9evg（美团官方解读）
[2] https://github.com/meituan/YOLOv6（美团官方代码）
[3] https://zhuanlan.zhihu.com/p/353697121

Original: https://blog.csdn.net/zqwwwm/article/details/125635594
Author: 所向披靡的张大刀
Title: 【yolov6系列一】深度解析网络架构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/716037/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

模糊神经网络：基于模糊神经网络（Fuzzy Neural Networks，FNN）的数据分类（提供MATLAB代码）

一、模糊神经网络FNN 模糊神经网络（Fuzzy Neural Networks，FNN）结合了神经网络系统和模糊系统的长处，它在处理非线性、模糊性等问题上有很大的优越性，在智能…

人工智能 2023年6月30日
0098
VS2022下安装和配置OpenCV环境参数

网上OpenCV的安装配置教程一堆，本人参照并尝试了几个都有差错。自己整理并分享在VS2022下安装和配置OpenCV环境参数的笔记。（所用VS2022是官网社区版，OpenCV版…

人工智能 2023年6月18日
0064
ffmpeg api实现aac语音文件转pcm

人工智能 2023年5月23日
0059
深度学习（四）分类

课程链接之前我们已经介绍了线性回归问题，分类问题是不适用线性回归方法的。理想情况下的分类问题的解决模型是一个布尔函数，损失函数是分类错误的次数，这样的损失函数显然是不能用最优化方法…

人工智能 2023年7月2日
0063
Praat脚本-031 | 批量转化mp3格式为wav格式

通常推荐大家在做语音实验、或者语音处理的时候使用的首选音频格式为 wav格式，但是可能由于每个人接触的项目，课题的原因，也会使用到大量 mp3格式的音频。表面上看这两种格式没有比较…

人工智能 2023年5月25日
0076
深度学习中一些注意力机制的介绍以及pytorch代码实现

文章目录前言注意力机制 * 软注意力机制 – 代码实现硬注意力机制多头注意力机制 – 代码实现参考前言因为最近看论文发现同一个模型用了不同的注…

人工智能 2023年7月26日
0045
ValueError: Please provide model inputs as a list or tuple of 2 or 3 elements: (input, target)

ValueError: Please provide model inputs as a list or tuple of 2 or 3 elements: (input, tar…

人工智能 2023年7月14日
0050
python 使用Pandas进行数据清洗

文章目录 * – 数据缺失 – + 缺失值检测 isnull() + 丢弃缺失值dropna() + 缺失值填充fillna() – 数据重复 …

人工智能 2023年7月18日
0070
Filterin

问题介绍 – Filtering（滤波）问题在信号处理中，滤波是一种常见的技术，用于从原始信号中提取特定频率范围内的成分或去除某些干扰成分。滤波可以应用于各种领域，如…

人工智能 2024年1月2日
0025
吴恩达表示「AI 的下一个发展方向，从大数据转向小数据」，你同意他的观点吗？

作者：段智华链接：https://www.zhihu.com/question/517440629/answer/2366114293来源：知乎著作权归作者所有。商业转载请联系作者…

人工智能 2023年5月28日
0084
Yolov5-6.0详细教程（一）下载与准备工作

一、项目测试检查刚下载的代码能否正常运行。解压yolov5-6.0.zip，Anaconda创建一个python3.7.0环境命名为pytorch3.7，用pycharm打开yo…

人工智能 2023年5月23日
00125
【数据集】目标检测常用数据集||权威数据–持续更新

一个性能优良，极度完美的数据集，具有较小偏差的大数据集，对于计算机视觉领域算法的研究是很重要的，具体非常重要的作用！在目标检测中，知名的数据集一个接着一个的被发布，被公开，被广大…

人工智能 2023年7月27日
0049
AI算法中的Recognition通常是指什么

问题描述 Recognition，即识别，在AI算法中通常指的是通过计算机视觉技术对图像或视频中的目标进行识别和分类。在本篇文章中，我们将详细介绍Recognition算法的原理、…

人工智能 2024年1月3日
0025
一篇玩转mybatis-plus框架的详细讲解（入门必备）

🐼 个人主页：爪哇斗罗🐼 博主介绍：一名打工人🐼 签名：圣人之道，为而不争。🐼 一起交流，一起进步，一起互动。目录 1. MybatisPlus简介与特性 1.1 简介 1….

人工智能 2023年6月26日
0094
YOLOv5 目标框回归(三)

文章目录 * – 1. 目标框标注格式 – 2. 目标框的回归 – + YOLOv/v4目标框回归公式: + YOLOv5目标框回归计算公式，和…

人工智能 2023年6月17日
0059
数据挖掘流程梳理

理解业务与数据一个好的数据挖掘必须去理解业务，对业务好的理解能够帮助你选择合适的数据、合适的算法去训练，得到更好的结果数据准备数据准备是基于原始数据，去构建数据挖掘模型所需的…

人工智能 2023年7月16日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【yolov6系列一】深度解析网络架构

大家都在看