yolov5 的 detect 层与 anchor 机制

2023年6月17日上午9:20 • 人工智能 • 阅读 98

yolov5s.yaml 文件

以yolov5s.yaml 为例
其中有设置好的anchor

每一行代表在某一层的anchor. 一行的三组数字分别代表三个anchor的宽和高基准
且小anchor 是在大特征图上，大anchor是在小特征图上。以输入图片大小640*640为例：
最终提取三个特征图大小分别为 80 X 80 , 40 X 40, 20X20
那么 [10, 13, 16,30, 33,23] 将应用在80 X 80 的特征图上
[30,61, 62,45, 59,119] 应用在 40 X40 的特征图上
[116,90, 156,198, 373,326] 在 20 X 20 的特征图上
yolov5 的 detect 层与 anchor 机制

; Detect 函数

定义在yolo.Detect里面

class Detect(nn.Module):
    stride = None
    onnx_dynamic = False

    def __init__(self, nc=80, anchors=(), ch=(), inplace=True):
        super().__init__()
        self.nc = nc
        self.no = nc + 5
        self.nl = len(anchors)
        self.na = len(anchors[0]) // 2
        self.grid = [torch.zeros(1)] * self.nl
        self.anchor_grid = [torch.zeros(1)] * self.nl
        self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2))
        self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch)
        self.inplace = inplace

    def forward(self, x):
        z = []
        for i in range(self.nl):
            x[i] = self.m[i](x[i])
            bs, _, ny, nx = x[i].shape
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:
                if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                y = x[i].sigmoid()
                if self.inplace:
                    y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                else:
                    xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                    y = torch.cat((xy, wh, y[..., 4:]), -1)
                z.append(y.view(bs, -1, self.no))

        return x if self.training else (torch.cat(z, 1), x)
    def _make_grid(self, nx=20, ny=20):
        d = self.anchors.device
        yv, xv = torch.meshgrid([torch.arange(ny).to(d), torch.arange(nx).to(d)])
        grid = torch.stack((xv, yv), 2).expand((1, self.na, ny, nx, 2)).float()

        anchor_grid = (self.anchors.clone() * self.stride) \
            .view((1, self.na, 1, 1, 2)).expand((1, self.na, ny, nx, 2)).float()
        return grid, anchor_grid

由yolov5.yaml 中可知 detect 的输入为来自17, 20, 23 提取的三个特征图。参数是[nc, anchor].

详细介绍可参考yolov5 – head 源码解释
注意
１）当training 的时候，返回的是预测的偏量值，当前向推理的时候才会计算实际的bouding box.
２）在_make_grid 时候，anchor_grid 时乘了对应的stride的。 此时的self.anchors是yaml 文件的anchors除以对应特征图的stride的。
３) anchor是用于每一个点对应的三个不同bouding box的基准的。根据预测的偏量y[…, 2:4]和宽高基准self.anchor_grid可以得到预测的宽和高。再根据x,y中心坐标便可得到bouding box.

 y[..., 0:2] = (y[..., 0:2] * 2. - 0.5 + self.grid[i]) * self.stride[i]
 y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]

Detect函数的相关问题

１）Detect 初始化的参数 [nc, anchor, ch]

首先在建立模型时： yolo.parse_model()中找到Detect

由yolov5s.yaml文件可知，Detect的args是[nc, anchors], 然后又传入args.append([ch[x] for x in f])
,在这个函数ch是对应层的输出channel 数. 则这个就是第17, 20, 23层输出的特征图的chanel数量.

在yolo.Detect() 里，我们可以看到，这三个参数是用来建立Detect的三个卷积层用来计算预测值的。

self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch)

2) detect 的forward输入x为来自17, 20, 23 提取的三个特征图。

在yolo.Model._forward_once 函数里，我们可以看到整个模型的前向传播。

def _forward_once(self, x, profile=False, visualize=False):
        y, dt = [], []
        for m in self.model:
            if m.f != -1:
                x = y[m.f] if isinstance(m.f, int) else [x if j == -1 else y[j] for j in m.f]
            if profile:
                self._profile_one_layer(m, x, dt)
            x = m(x)
            y.append(x if m.i in self.save else None)
            if visualize:
                feature_visualization(x, m.type, m.i, save_dir=visualize)
        return x

y 收集了每一层的输出结果。Detect层 m.f 为[17,20,23],则其输入为三层的特征图。

3)Detect 里面的self.anchors

上面提到，yolo.Detect inference 里面的self.anchors是yaml 文件的anchors除以对应特征图的stride的。这个是在yolo.Model()初始化时 m.anchors /= m.sride.view(-1, 1, 1)。
以yolov5s.yaml 为例, 则anchors 转化如下

 if isinstance(m, Detect):
            s = 256
            m.inplace = self.inplace
            m.stride = torch.tensor([s / x.shape[-2] for x in self.forward(torch.zeros(1, ch, s, s))])
            m.anchors /= m.stride.view(-1, 1, 1)
            check_anchor_order(m)
            self.stride = m.stride
            self._initialize_biases()

４) autoanchor

这个功能实现在units.autoanchor.check_anchors中,通过聚类算法重新计算适合该数据集的anchors.

可参考yolov5自动anchor计算
在yolov5加入了autoanchor, 如果想用自己设置的anchor, 则需要禁止掉这个。
直接在训练时中加入 –noautoanchor就好

否则便会调用check_anchors, 利用聚类算法重新计算适合该数据集的anchors. 如果认为新生成的anchors比原来的好，便会用这个anchors替换原来的anchors.

train.py

Original: https://blog.csdn.net/weixin_44956310/article/details/121745474
Author: weixin_44956310
Title: yolov5 的 detect 层与 anchor 机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/629498/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用Python画一棵分形树

文章目录 * – 画一棵分形树 – 加入随机量的分形树 – 加入点缀的圣诞树画一棵分形树分形树，就是用分形的逻辑去画一棵树，所谓分形，若从编…

人工智能 2023年7月31日
0068
知识图谱、命名实体识别、问答

1950年代末、1960年代初，语义网的概念提出，他是基于图（有向或无向）的数据结构，用于存储知识。将自然语句利用语义网络来表示和存储就变得非常方便。本质：以Web数据的内容为核心…

人工智能 2023年6月10日
0064
Yolov5训练建议

github网址：Tips for Best Training Results · ultralytics/yolov5 Wiki (github.com) 本指南解释了如何使用Y…

人工智能 2023年6月17日
0084
【目标检测】YOLOv5：添加漏检率和虚检率输出

前言在目标检测领域，衡量一个模型的优劣的指标往往是mAP，然而实际工程中，有时候更倾向于看漏检率和虚检率。YOLOv5的原始代码并没有这两个指标的输出，因此我想利用原始代码的混淆…

人工智能 2023年6月16日
0063
NeRF 源码分析解读（三）

NeRF 源码分析解读（三）光线的生成上一章节我们对 NeRF 模型的初始化代码进行了分析，即 create_nerf() 部分，本章节我们继续对 NeRF 代码进行分析注释。…

人工智能 2023年7月12日
0056
Pandas实用技能，将列（column）排序的几种方法

来源：Python数据之道 (ID:PyDataLab)作者：阳哥大家好，我是阳哥。 Pandas 可以说是在Python数据科学领域应用最为广泛的工具之一。 Pandas是一…

人工智能 2023年7月15日
0074
解决pytorch检测不到cuda的问题/pytorch找不到GPU

检测代码： import torch device = torch.device("cuda" if torch.cuda.is_available() els…

人工智能 2023年6月16日
0082
FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning（论文翻译）

FACIAL论文链接视频：https://www.youtube.com/watch?reload=9&app=desktop&v=hl9ek3bUV1E ar…

人工智能 2023年5月27日
00110
异常检测 and 自编码器（2）

上篇文章介绍了自编码器的原理和作用等知识，以及在异常检测中的作用。同时学习到一句话：自编码器（Auto Encoder）也是一种无监督的数据压缩算法，或者说特征提取算法。所以，其…

人工智能 2023年6月16日
0074
【实验记录】yolov5的一些改进tricks总结–持续更ing

【实验记录】yolov5的一些改进tricks总结 1.在yolov5上增加小目标检测层link 2.在yolov5上增加注意力机制CBAMSElayer… 3.考虑在…

人工智能 2023年7月4日
0069
【目标检测】YOLOv5遇上知识蒸馏

前言模型压缩方法主要4种：网络剪枝(Network pruning) 稀疏表示(Sparse representation) 模型量化(Model quantification…

人工智能 2023年6月30日
0055
tensorflow的详细安装（包含jupyter notebook）

安装Anaconda 在官网https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/下载Anaconda自己用就选Just ME…

人工智能 2023年5月23日
0070
Hard Swish激活函数

第一个版本Hard Swish激活函数文章链接：Searching for MobileNetV3年份：2019 简介 Swish激活函数代替ReLU，显著提高了神经网络的准确性…

人工智能 2023年6月16日
0085
可解释性研究 -LRP-for-LSTM

LRP算法一.LSTM * 1.1.理论部分 1.2.作者代码二.LRP_for_LSTM * 2.1.理论部分 – 2.2.1.Weighted Connecti…

人工智能 2023年7月23日
0045
机器学习实验 – 朴素贝叶斯分类器

目录 * – 一、报告摘要 – + 1.1 实验要求 + 1.2 实验思路 + 1.3 实验结论 – 二、实验内容 – + 2.1 …

人工智能 2023年7月28日
0061
微调LayoutLM v3进行票据数据的处理和内容识别

文档理解是文档处理和提取中最重要的步骤。这是从非结构化或半结构化文档中提取信息并将其转换为结构化形式的过程。提取后的结构化表示可以支持各种下游任务，例如信息检索，汇总，分类等。有许…

人工智能 2023年7月13日
0042

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

yolov5 的 detect 层 与 anchor 机制