yolov5的head修改为decouple head

2023年6月16日下午12:26 • 人工智能 • 阅读 70

yolox的decoupled head结构

本来想将yolov5的head修改为decoupled head，与yolox的decouple head对齐，但是没注意，该成了如下结构：

感谢 少年肩上杨柳依依的指出，如还有问题欢迎指出

1.修改models下的yolo.py文件中的Detect

class Detect(nn.Module):
    stride = None
    onnx_dynamic = False

    def __init__(self, nc=80, anchors=(), ch=(), inplace=True):
        super().__init__()
        self.nc = nc
        self.no = nc + 5
        self.nl = len(anchors)
        self.na = len(anchors[0]) // 2
        self.grid = [torch.zeros(1)] * self.nl
        self.anchor_grid = [torch.zeros(1)] * self.nl
        self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2))

        self.m_box = nn.ModuleList(nn.Conv2d(256, 4 * self.na, 1) for x in ch)
        self.m_conf = nn.ModuleList(nn.Conv2d(256, 1 * self.na, 1) for x in ch)
        self.m_labels = nn.ModuleList(nn.Conv2d(256, self.nc * self.na, 1) for x in ch)
        self.base_conv = nn.ModuleList(BaseConv(in_channels = x, out_channels = 256, ksize = 1, stride = 1) for x in ch)
        self.cls_convs = nn.ModuleList(BaseConv(in_channels = 256, out_channels = 256, ksize = 3, stride = 1) for x in ch)
        self.reg_convs = nn.ModuleList(BaseConv(in_channels = 256, out_channels = 256, ksize = 3, stride = 1) for x in ch)

        self.inplace = inplace

    def forward(self, x):
        z = []
        for i in range(self.nl):

            x_feature = self.base_conv[i](x[i])

            cls_feature = self.cls_convs[i](x_feature)
            reg_feature = self.reg_convs[i](x_feature)

            m_box = self.m_box[i](reg_feature)
            m_conf = self.m_conf[i](reg_feature)
            m_labels = self.m_labels[i](cls_feature)
            x[i] = torch.cat((m_box,m_conf, m_labels),1)
            bs, _, ny, nx = x[i].shape
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:
                if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                y = x[i].sigmoid()
                if self.inplace:
                    y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                else:
                    xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                    y = torch.cat((xy, wh, y[..., 4:]), -1)
                z.append(y.view(bs, -1, self.no))

        return x if self.training else (torch.cat(z, 1), x)

2.在yolo.py中添加

def get_activation(name="silu", inplace=True):
    if name == "silu":
        module = nn.SiLU(inplace=inplace)
    elif name == "relu":
        module = nn.ReLU(inplace=inplace)
    elif name == "lrelu":
        module = nn.LeakyReLU(0.1, inplace=inplace)
    else:
        raise AttributeError("Unsupported act type: {}".format(name))
    return module

class BaseConv(nn.Module):
    """A Conv2d -> Batchnorm -> silu/leaky relu block"""

    def __init__(
        self, in_channels, out_channels, ksize, stride, groups=1, bias=False, act="silu"
    ):
        super().__init__()

        pad = (ksize - 1) // 2
        self.conv = nn.Conv2d(
            in_channels,
            out_channels,
            kernel_size=ksize,
            stride=stride,
            padding=pad,
            groups=groups,
            bias=bias,
        )
        self.bn = nn.BatchNorm2d(out_channels)
        self.act = get_activation(act, inplace=True)

    def forward(self, x):

        return self.act(self.bn(self.conv(x)))

    def fuseforward(self, x):
        return self.act(self.conv(x))

decouple head的特点：
由于训练模型时，应该是channels = 256的地方改成了channels = x(失误)，所以在decoupled head的部分参数量比yolox要大一些，以下的结果是在channels= x的情况下得出
比yolov5s参数多，计算量大，在我自己的2.5万的数据量下map提升了3%多
1.模型给出的目标cls较高，需要将conf的阈值设置较大（0.5），不然准确率较低

parser.add_argument('--conf-thres', type=float, default=0.5, help='confidence threshold')

2.对于少样本的检测效果较好，召回率的提升比准确率多
3.在conf设置为0.25时，召回率比yolov5s高，但是准确率低；在conf设置为0.5时，召回率与准确率比yolov5s高
4.比yolov5s参数多，计算量大，在2.5万的数据量下map提升了3%多

对于decouple head的改进

改进：
1.将红色框中的conv去掉，缩小参数量和计算量；
2.channels =256 ，512 ，1024是考虑不增加参数，不进行featuremap的信息压缩

class Detect(nn.Module):
    stride = None
    onnx_dynamic = False

    def __init__(self, nc=80, anchors=(), ch=(), inplace=True):
        super().__init__()
        self.nc = nc
        self.no = nc + 5
        self.nl = len(anchors)
        self.na = len(anchors[0]) // 2
        self.grid = [torch.zeros(1)] * self.nl
        self.anchor_grid = [torch.zeros(1)] * self.nl
        self.register_buffer('anchors', torch.tensor(anchors).float().view(self.nl, -1, 2))
        self.m = nn.ModuleList(nn.Conv2d(x, self.no * self.na, 1) for x in ch)
        self.inplace = inplace

    def forward(self, x):
        z = []
        for i in range(self.nl):
            x[i] = self.m[i](x[i])
            bs, _, ny, nx = x[i].shape
            x[i] = x[i].view(bs, self.na, self.no, ny, nx).permute(0, 1, 3, 4, 2).contiguous()

            if not self.training:
                if self.onnx_dynamic or self.grid[i].shape[2:4] != x[i].shape[2:4]:
                    self.grid[i], self.anchor_grid[i] = self._make_grid(nx, ny, i)

                y = x[i].sigmoid()
                if self.inplace:
                    y[..., 0:2] = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    y[..., 2:4] = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                else:
                    xy = (y[..., 0:2] * 2 - 0.5 + self.grid[i]) * self.stride[i]
                    wh = (y[..., 2:4] * 2) ** 2 * self.anchor_grid[i]
                    y = torch.cat((xy, wh, y[..., 4:]), -1)
                z.append(y.view(bs, -1, self.no))

        return x if self.training else (torch.cat(z, 1), x)

特点
1.模型给出的目标cls较高，需要将conf的阈值设置较大（0.4），不然准确率较低
2.对于少样本的检测效果较好，准确率的提升比召回率多
3. 准确率的提升比召回率多，
该改进不如上面的模型提升多，但是参数量小，计算量小少9Gflop，占用显存少

decoupled head指标提升的原因：由于yolov5s原本的head不能完全的提取featuremap中的信息，decoupled head能够较为充分的提取featuremap的信息；

疑问

为什么decoupled head目标的cls会比较高，没想明白
为什么去掉base_conv，召回率要比准确率提升少

Original: https://blog.csdn.net/qq_34496674/article/details/124828868
Author: qq_34496674
Title: yolov5的head修改为decouple head

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624017/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python绘制时序图，ACF和PACF图

在时序分析众多模型中，最为基础也是最为重要的有AR§模型，MA(q)模型，以及两者的结合ARMA(p,q)模型，同时考虑ARMA模型的平稳性，若有一个或多个根落于单位圆上，则此时的…

人工智能 2023年6月19日
0089
基于人体姿态识别的AI健身系统(浅谈

目录前言一、人体姿态识别的一些入门知识点二、Blazepose 算法简介三、AI健身系统的实现前言随着全民健身热潮的兴起,越来越多的人积极参加健身锻炼,但由于缺乏科学 …

人工智能 2023年7月6日
0084
高斯过程回归(Gaussian Processes Regression, GPR)简介

高斯过程回归（Gaussian Processes Regression, GPR）简介 * – 一、高斯过程简介 – 二、高斯分布 – + 1…

人工智能 2023年6月16日
0089
数学建模–MATLAB图像处理基础

### 回答1：很抱歉，我是AI语言模型，无法回答您的问题。但是，我可以告诉您，2021 数学建模_国赛c题需要使用 _MATLAB_进行建模和求解。这道题目涉及到了 _图像处理…

人工智能 2023年6月20日
0090
英语单词: truncate；截断警告

为什么要看这个单词，因为VS里的编译警告有很多是截断警告。比如https://learn.microsoft.com/en-us/cpp/error-messages/compil…

人工智能 2023年6月26日
0088
【NLP】一个支持低资源、长篇章、多模态的开源知识抽取工具——DeepKE

背景了解知识图谱的友友应该都知道，知识图谱的构建可以从已有的非结构化、半结构化以及结构化的数据进行构建。对于结构化的数据，通常是数据库中的表，可以使用一些工具如R2RML语言。对…

人工智能 2023年7月28日
00144
聚类dbi指数_Clustering metrics 聚类评价指标

Clustering metrics See the Clustering performance evaluation section of the user guide for…

人工智能 2023年6月2日
0076
numpy矩阵求最值、均值、方差、标准差、中值、求和，众数

一、最值获得整个矩阵、行或列的最大最小值。 import numpy as np a = np.array([[1,2,3,3],[4,5,6,2],[0,8,4,9]]) pr…

人工智能 2023年6月16日
0081
手把手教你用anaconda安装pytorch最新版

序言：在有过python和jupyter notebook 安装基础之上，安装pytorch。小贴士：个人不建议用miniconda，虽然比较小巧，但是功能还是没办法和anacon…

人工智能 2023年7月23日
0081
v-on的修饰符

1.stop修饰符的使用——阻止冒泡事件按钮 const app=new Vue({ el:"#app", data://注意此处的花括号 { message…

人工智能 2023年6月26日
0095
window 编译生成darknet (cuda11.1+opencv4.5+vs2019)

目录 1.环境配置 2.编译darknet 3.测试编译结果 1.环境配置 cuda11.1, cudnn8.0.3, opencv4.5.0, vs2019 (vs2015编译失…

人工智能 2023年7月12日
0059
Python之pandas（三）

前言学霸在知识的海洋里开快艇，我在知识的海洋里喂鲨鱼为了不被喂鲨鱼，我又来更新学习了，补充一点pandas的知识点系列文章 Python之pandas（二） Python之pa…

人工智能 2023年7月8日
0080
教你如何使用pr语音自动生成字幕，pr自动识别声音添加字幕

说到pr语音自动生成字幕，还是需要的用到Speech to Text for Premiere Pro 2022插件，这是一个pr语音自动生成字幕插件，可以自动生成序列的脚本并为视…

人工智能 2023年5月27日
00277
PCL实现对点云指定区域的分割

PCL实现对点云指定区域的分割通常我们从激光雷达或者深度相机中拿到的数据中包含有大量的背景区域，而我们想要的数据有时候时候可能只是其中的一小部分。对于目标区域的提取通常采用算法的…

人工智能 2023年7月18日
0080
【机器视觉】二维码检测（QR 码）

这里写自定义目录标题二维码检测（QR 码）代码二维码检测（QR 码）读取 QR 码，可以自动定位 QR 码，并允许 QR 图像旋转任意角度。分割设置阈值：设置二值图像的分…

人工智能 2023年6月20日
0089
ARIMA（p,d,q）模型原理及其实现 ——–python

1.简介 ARIMA模型(Autoregressive Integrated Moving Average model)，差分整合移动平均自回归模型，又称整合移动平均自回归模型，时…

人工智能 2023年7月3日
0095

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

yolov5的head修改为decouple head

对于decouple head的改进

疑问

大家都在看