YOLOX改进之添加ASFF

2023年6月23日下午7:44 • 人工智能 • 阅读 94

文章内容：如何在YOLOX官网代码中添加 ASFF模块

环境：pytorch1.8

修改内容：

（1）在 PAFPN尾部添加ASFF模块（ YOLOX-s等版本）

（2）在 FPN尾部添加ASFF模块（ YOLOX-Darknet53版本）

参考链接：

论文链接：https://arxiv.org/pdf/1911.09516v2.pdf

ASFF原理及代码参考：https://blog.csdn.net/weixin_44119362/article/details/114289607

示意图如下：

使用方法：直接在PAFPN或FPN尾部添加即可（可自动进行维度匹配，不需要修改）

代码修改过程：

1、在 YOLOXS版本的 PAFPN后添加 ASFF模块

（注意：这里是PAFPN该版本用于YOLOv5版的PAFPN中，不能用于YOLOv3的FPN）

步骤一：在YOLOX-main/yolox/models文件夹下创建 ASFF.py文件，内容如下：

import torch
import torch.nn as nn
import torch.nn.functional as F

def autopad(k, p=None):

    if p is None:
        p = k // 2 if isinstance(k, int) else [x // 2 for x in k]
    return p

class Conv(nn.Module):

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        super(Conv, self).__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        return self.act(self.conv(x))

class ASFF(nn.Module):
    def __init__(self, level, multiplier=1, rfb=False, vis=False, act_cfg=True):
"""
        multiplier should be 1, 0.5
        which means, the channel of ASFF can be
        512, 256, 128 -> multiplier=0.5
        1024, 512, 256 -> multiplier=1
        For even smaller, you need change code manually.

"""
        super(ASFF, self).__init__()
        self.level = level
        self.dim = [int(1024*multiplier), int(512*multiplier),
                    int(256*multiplier)]

        self.inter_dim = self.dim[self.level]
        if level == 0:
            self.stride_level_1 = Conv(int(512*multiplier), self.inter_dim, 3, 2)

            self.stride_level_2 = Conv(int(256*multiplier), self.inter_dim, 3, 2)

            self.expand = Conv(self.inter_dim, int(
                1024*multiplier), 3, 1)
        elif level == 1:
            self.compress_level_0 = Conv(
                int(1024*multiplier), self.inter_dim, 1, 1)
            self.stride_level_2 = Conv(
                int(256*multiplier), self.inter_dim, 3, 2)
            self.expand = Conv(self.inter_dim, int(512*multiplier), 3, 1)
        elif level == 2:
            self.compress_level_0 = Conv(
                int(1024*multiplier), self.inter_dim, 1, 1)
            self.compress_level_1 = Conv(
                int(512*multiplier), self.inter_dim, 1, 1)
            self.expand = Conv(self.inter_dim, int(
                256*multiplier), 3, 1)

        compress_c = 8 if rfb else 16
        self.weight_level_0 = Conv(
            self.inter_dim, compress_c, 1, 1)
        self.weight_level_1 = Conv(
            self.inter_dim, compress_c, 1, 1)
        self.weight_level_2 = Conv(
            self.inter_dim, compress_c, 1, 1)

        self.weight_levels = Conv(
            compress_c*3, 3, 1, 1)
        self.vis = vis

    def forward(self, x):
"""
        #
        256, 512, 1024
        from small -> large
"""
        x_level_0=x[2]
        x_level_1=x[1]
        x_level_2=x[0]

        if self.level == 0:
            level_0_resized = x_level_0
            level_1_resized = self.stride_level_1(x_level_1)
            level_2_downsampled_inter = F.max_pool2d(
                x_level_2, 3, stride=2, padding=1)
            level_2_resized = self.stride_level_2(level_2_downsampled_inter)
        elif self.level == 1:
            level_0_compressed = self.compress_level_0(x_level_0)
            level_0_resized = F.interpolate(
                level_0_compressed, scale_factor=2, mode='nearest')
            level_1_resized = x_level_1
            level_2_resized = self.stride_level_2(x_level_2)
        elif self.level == 2:
            level_0_compressed = self.compress_level_0(x_level_0)
            level_0_resized = F.interpolate(
                level_0_compressed, scale_factor=4, mode='nearest')
            x_level_1_compressed = self.compress_level_1(x_level_1)
            level_1_resized = F.interpolate(
                x_level_1_compressed, scale_factor=2, mode='nearest')
            level_2_resized = x_level_2

        level_0_weight_v = self.weight_level_0(level_0_resized)
        level_1_weight_v = self.weight_level_1(level_1_resized)
        level_2_weight_v = self.weight_level_2(level_2_resized)

        levels_weight_v = torch.cat(
            (level_0_weight_v, level_1_weight_v, level_2_weight_v), 1)
        levels_weight = self.weight_levels(levels_weight_v)
        levels_weight = F.softmax(levels_weight, dim=1)

        fused_out_reduced = level_0_resized * levels_weight[:, 0:1, :, :] +\
            level_1_resized * levels_weight[:, 1:2, :, :] +\
            level_2_resized * levels_weight[:, 2:, :, :]

        out = self.expand(fused_out_reduced)

        if self.vis:
            return out, levels_weight, fused_out_reduced.sum(dim=1)
        else:
            return out

步骤二：在YOLOX-main/yolox/models/ yolo_pafpn.py中调用 ASFF模块

（1）导入

from .ASFF import ASFF

（2）在init中实例化


        self.asff_1 = ASFF(level = 0, multiplier = width)
        self.asff_2 = ASFF(level = 1, multiplier = width)
        self.asff_3 = ASFF(level = 2, multiplier = width)

    def forward(self, input):

（3）直接在PAFPN输出outputs后接上ASFF模块

        outputs = (pan_out2, pan_out1, pan_out0)

        pan_out0 = self.asff_1(outputs)
        pan_out1 = self.asff_2(outputs)
        pan_out2 = self.asff_3(outputs)
        outputs = (pan_out2, pan_out1, pan_out0)

        return outputs

2、在 YOLOX-Darknet53的 FPN后添加 ASFF模块

（注意：这里是用于 YOLOv3的FPN）

步骤一：在YOLOX-main/yolox/models文件夹下创建 ASFF_darknet.py文件，内容如下：

import torch
import torch.nn as nn
import torch.nn.functional as F
from .network_blocks import BaseConv

class ASFF(nn.Module):
    def __init__(self, level, rfb=False, vis=False):
        super(ASFF, self).__init__()
        self.level = level
        self.dim = [512, 256, 128]
        self.inter_dim = self.dim[self.level]
        if level==0:
            self.stride_level_1 = self._make_cbl(256, self.inter_dim, 3, 2)
            self.stride_level_2 = self._make_cbl(128, self.inter_dim, 3, 2)
            self.expand = self._make_cbl(self.inter_dim, 512, 3, 1)
        elif level==1:
            self.compress_level_0 = self._make_cbl(512, self.inter_dim, 1, 1)
            self.stride_level_2 = self._make_cbl(128, self.inter_dim, 3, 2)
            self.expand = self._make_cbl(self.inter_dim, 256, 3, 1)
        elif level==2:
            self.compress_level_0 = self._make_cbl(512, self.inter_dim, 1, 1)
            self.compress_level_1 = self._make_cbl(256, self.inter_dim, 1, 1)
            self.expand = self._make_cbl(self.inter_dim, 128, 3, 1)

        compress_c = 8 if rfb else 16

        self.weight_level_0 = self._make_cbl(self.inter_dim, compress_c, 1, 1)
        self.weight_level_1 = self._make_cbl(self.inter_dim, compress_c, 1, 1)
        self.weight_level_2 = self._make_cbl(self.inter_dim, compress_c, 1, 1)

        self.weight_levels = nn.Conv2d(compress_c*3, 3, kernel_size=1, stride=1, padding=0)
        self.vis= vis

    def _make_cbl(self, _in, _out, ks, stride):
        return BaseConv(_in, _out, ks, stride, act="lrelu")

    def forward(self, x_level_0, x_level_1, x_level_2):
        if self.level==0:
            level_0_resized = x_level_0
            level_1_resized = self.stride_level_1(x_level_1)

            level_2_downsampled_inter =F.max_pool2d(x_level_2, 3, stride=2, padding=1)
            level_2_resized = self.stride_level_2(level_2_downsampled_inter)

        elif self.level==1:
            level_0_compressed = self.compress_level_0(x_level_0)
            level_0_resized =F.interpolate(level_0_compressed, scale_factor=2, mode='nearest')
            level_1_resized =x_level_1
            level_2_resized =self.stride_level_2(x_level_2)
        elif self.level==2:
            level_0_compressed = self.compress_level_0(x_level_0)
            level_0_resized =F.interpolate(level_0_compressed, scale_factor=4, mode='nearest')
            level_1_compressed = self.compress_level_1(x_level_1)
            level_1_resized =F.interpolate(level_1_compressed, scale_factor=2, mode='nearest')
            level_2_resized =x_level_2

        level_0_weight_v = self.weight_level_0(level_0_resized)
        level_1_weight_v = self.weight_level_1(level_1_resized)
        level_2_weight_v = self.weight_level_2(level_2_resized)
        levels_weight_v = torch.cat((level_0_weight_v, level_1_weight_v, level_2_weight_v),1)
        levels_weight = self.weight_levels(levels_weight_v)
        levels_weight = F.softmax(levels_weight, dim=1)

        fused_out_reduced = level_0_resized * levels_weight[:,0:1,:,:]+\
                            level_1_resized * levels_weight[:,1:2,:,:]+\
                            level_2_resized * levels_weight[:,2:,:,:]

        out = self.expand(fused_out_reduced)

        if self.vis:
            return out, levels_weight, fused_out_reduced.sum(dim=1)
        else:
            return out

步骤二：在YOLOX-main/yolox/models/ yolo_fpn.py中调用ASFF模块

（1）导入

from .ASFF_darknet import ASFF

（2）实例化 ASFF对象


        self.assf_5 = ASFF(level = 0)
        self.assf_4 = ASFF(level = 1)
        self.assf_3 = ASFF(level = 2)

    def _make_cbl(self, _in, _out, ks):
        return BaseConv(_in, _out, ks, stride=1, act="lrelu")

（3）在outputs后直接添加asff

        outputs = (out_dark3, out_dark4, x0)

        out_assf_5 = self.assf_5(x0, out_dark4, out_dark3)
        out_assf_4 = self.assf_4(x0, out_dark4, out_dark3)
        out_assf_3 = self.assf_3(x0, out_dark4, out_dark3)

        outputs = (out_assf_3, out_assf_4, out_assf_5)

        return outputs

效果：根据个人数据集而定。对我的数据集没变化。

权重大小变化：yoloxs（68.8M->110M）

速度变化：有所下降

上述代码链接：
链接：https://pan.baidu.com/s/1ykfb-YHpJaLj4sQpMsCIKw
提取码：qrvg

Original: https://blog.csdn.net/weixin_45679938/article/details/122354725
Author: 你的陈某某
Title: YOLOX改进之添加ASFF

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647788/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

经典网络-AlexNet论文及实践

2012-AlexNet 论文地址：https://papers.nips.cc/paper/4824-imagenet-classification-with-deep-conv…

人工智能 2023年5月26日
0075
Pytorch初始化方法

常用初始化方法 PyTorch 中提供了 10 中初始化方法 3、nn.init.kaiming_normal_(m.weight.data) 5、用均匀分布的值填充输入张量, 参…

人工智能 2023年7月22日
0067
opencv调用yolov7 yolov7 c++ yolov7转onnx opencv调用yolov7 onnx

一、YOLOV7主要贡献：主要是现有的一些trick的集合以及模块重参化和动态标签分配策略，最终在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测…

人工智能 2023年7月26日
0063
CV15 轮廓检测：霍夫变换原理及应用

文章目录 * – 1.基本原理 – + 1.1数学分析 + 1.2图像处理应用 – 2.概率霍夫变换 – + 2.1标准霍夫与概率霍…

人工智能 2023年7月10日
0081
鼠标和滚轮事件

QMouseEvent（鼠标事件）在小组件内按下或释放鼠标按钮或移动鼠标光标时，会发生鼠标事件。常用的函数： button()返回造成事件的按键buttons()返回造成事件的…

人工智能 2023年6月29日
0069
万万字详解自动驾驶、车路协同中的高精度地图

参考资料：自动驾驶现在是否需要高精地图？特斯拉的纯视觉更强吗? – 知乎 (zhihu.com) 车路协同、车联网、智慧交通、智能网联车、自动驾驶、无人驾驶、高精度地…

人工智能 2023年6月1日
0064
基于Python的图像超分辨率（Image Super Resolution）

资源下载地址：https://download.csdn.net/download/sheziqiong/85596189 一、业务背景在本实验中，使用时间深度学习技术来重建图像…

人工智能 2023年5月23日
0068
论文阅读瞎记(四) Cascade R-CNN: Delving into High Quality Object Detection 2017

概述在物体检测中1，IOU阈值被用于判定正负样本。在低IOU阈值比如0.5的状态下训练模型经常产生噪音预测，然而检测效果会随着IOU增加而降低。两个主要因素：1.训练时的过拟合，…

人工智能 2023年7月10日
0052
基于Python决策树算法的学生学习行为数据分析设计报告+代码及数据

资源下载地址：https://download.csdn.net/download/sheziqiong/85709726资源下载地址：https://download.csdn….

人工智能 2023年6月11日
0083
Python中pandas dataframe删除一行或一列：drop函数

用法：DataFrame.drop(labels=None,axis=0, index=None, columns=None, inplace=False) 参数说明：labels…

人工智能 2023年7月6日
00119
pandas的简单使用

目录一、基本数据结构Series Series数组的创建 Series的索引创建带索引的Series Series的数学运算对series数组数据的筛查 Series的汇总 …

人工智能 2023年7月15日
0063
结构型设计模式（上）

适配器模式：类适配器：对象适配器： 1、定义：将一个接口转换成客户希望的另一个接口，适配器模式使接口不兼容的那些类可以一起工作 2、模型结构： (1)目标抽象类(Target…

人工智能 2023年6月6日
0046
Cannot convert a symbolic Tensor (bidirectional/forward_lstm/strided_slice:0

Cannot convert a symbolic Tensor (bidirectional/forward_lstm/strided_slice:0 ）报错解决办法，如果你为…

人工智能 2023年5月25日
0083
XSS攻击及防御（简单易懂）

一、定义 XSS（Cross Site Scripting），翻译过来就是跨站脚本。指的是在用户浏览器上，在渲染DOM树的时候，执行了不…

人工智能 2023年6月27日
0088
机器学习笔记-基于TorchHub和YOLOv5和SSD的目标检测

一、关于对象检测对象检测是一个很有意思的领域。让机器识别图像中物体的确切位置有各种各样的关键用途。从人脸检测系统到帮助自动驾驶汽车安全导航，不胜枚举。 1、YOLO YOLO …

人工智能 2023年7月23日
0070
pytorch修改图片尺寸大小

import cv2 from torch.utils.data import Dataset from PIL import Image import os import mat…

人工智能 2023年6月17日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

YOLOX改进之添加ASFF

大家都在看