YOLOv5的Tricks | 【Trick4】参数重结构化（融合Conv+BatchNorm2d）

2023年6月16日上午10:10 • 人工智能 • 阅读 115

如有错误，恳请指出。

文章目录

1. 参数融合概念介绍
2. 参数融合详细推导
3. 参数融合代码实现

这篇文章是想要记录yolov5在模型搭建过程中的一个融合模块，就是把卷积与批归一化的参数进行融合，想卷积带有批归一化的性质，使得推理过程中可以加快模型推理速度，简化整个模型结构，实现训练与推理两个阶段的解耦。

参数融合概念介绍

我最早接触参数重结构化这个词是看见了大佬丁霄汉发表的几篇论文：RepVGG，RepMLP，RepLKNet，这些构建新backbone的论文无一例外的全部使用了参数重结构化的思想。

RepVGG将3×3,1×1，identity分支的残差结果利用数学计算方法等价为一个3×3的卷积结构，实现训练与推断过程的解耦；RepMLP将局部的CNN先验信息加进了全连接层，使得其与MLP相结合等等。这里需要注意，重结构化层MLP结构也不是说变成Linear层，而是简化为1×1的卷积。（后续有机会把这几篇文章介绍一下，或者直接看大佬的知乎：https://www.zhihu.com/people/ding-xiao-yi-93/posts）

BN（批归一化）层常用于在卷积层之后，对feature maps进行归一化，从而加速网络学习，也具有一定的正则化效果。 训练时，BN需要学习一个minibatch数据的均值、方差，然后利用这些信息进行归一化。而在推理过程，通常为了加速，都会把BN融入到其上层卷积中，这样就将两步运算变成了一步，也就达到了加速目的。

那么这里yolov5所实现的， 是参数重结构化的一个小内容，就是把卷积与批归一化进行融合，变成一个新的卷积，但是包含BN层的特性。所以相比之下，算是参数重结构化系列的一个小小idea，可以稍微的加快推理速度。因为使用的是csp结构，所以没有涉及多并联分支的卷积模块（所以这一点其实也可以魔改下yolov5试试）。

参数融合详细推导

在yolov5的注释中给了一个推导的参考资料：Fusing batch normalization and convolution in runtime，代码也是基于这篇文章来稍微修改的。

其实现的主要思想就是将bn层转化为一个1×1的卷积：

YOLOv5的Tricks | 【Trick4】参数重结构化（融合Conv+BatchNorm2d）

然后就变成了两个卷积层的迭代处理，公式为：
f ^ i , j = W B N ⋅ ( W c o n v ⋅ f i , j + b c o n v ) + b B N = ( W B N ⋅ W c o n v ) ⋅ f i , j + ( W B N ⋅ b c o n v + b B N ) = W ⋅ f i , j + b \begin{aligned} \hat{f}{i,j} &=W{BN}·(W_{conv}·f_{i,j}+b_{conv})+b_{BN} \ &=(W_{BN}·W_{conv})·f_{i,j}+(W_{BN}·b_{conv}+b_{BN}) \ &=W·f_{i,j}+b \end{aligned}f ^i ,j =W B N ⋅(W c o n v ⋅f i ,j +b c o n v )+b B N =(W B N ⋅W c o n v )⋅f i ,j +(W B N ⋅b c o n v +b B N )=W ⋅f i ,j +b

其中：

filter weights：W = W B N ⋅ W c o n v W=W_{BN}·W_{conv}W =W B N ⋅W c o n v
bias：b = W B N ⋅ b c o n v + b B N b=W_{BN}·b_{conv}+b_{BN}b =W B N ⋅b c o n v +b B N

在pytorch实现中，每个BN层都有以下几个：

scaling γ \gamma γ：bn.weight
shift β \beta β：bn.bias
mean estiamte μ ^ \hat{μ}μ^：bn.running_mean
variance estimate σ ^ 2 \hat{\sigma}^2 σ^2：bn.running_var
ϵ ϵϵ (for numerical stability)：bn.eps

但是在批归一化转换为1×1的卷积那里其实没有给出太多解释，后来我看了另一篇博客介绍：卷积层与BN层的融合方式，其实我是没有完全弄到batchnormalization的过程。为了搞清楚如何融合卷积和BN，需要先搞懂卷积和BN的过程。

对于卷积层，卷积核的权重为W W W，卷积过程就是利用W W W在其输入feature map中滑窗计算，公式表达为：y c o n v = w ⋅ x + b y_{conv}=w·x+b y c o n v =w ⋅x +b

对于BN层，需要计算一个minibatch中元素的均值方差，然后对于x需要减去均值除以标准差，最后利用γ , β γ,βγ,β进行仿射变换，即可得到最终的BN输出

其中，第一个公式为求均值、第二个公式为求方差、第三个公式为归一化、第四个公式为仿射变换

这里直接将卷积公式：y c o n v = w ⋅ x + b y_{conv}=w·x+b y c o n v =w ⋅x +b代入到BN的公式中，如下所示：

这里重新将其变化为w ⋅ x + b w·x+b w ⋅x +b的形式：
w ^ = γ w σ B 2 + ϵ = γ σ B 2 + ϵ ⋅ w = W B N ⋅ W c o n v \begin{aligned} \hat{w} &= \frac{\gamma w}{\sqrt{\sigma^2_{B}+ϵ}} \ &= \frac{\gamma }{\sqrt{\sigma^2_{B}+ϵ}} ·w \ &= W_{BN}·W_{conv} \end{aligned}w ^=σB 2 +ϵγw =σB 2 +ϵγ⋅w =W B N ⋅W c o n v

b ^ = γ σ B 2 + ϵ ⋅ ( b − μ B ) + β = γ σ B 2 + ϵ ⋅ b − γ σ B 2 + ϵ ⋅ μ B + β = γ σ B 2 + ϵ ⋅ b + ( β − γ σ B 2 + ϵ ⋅ μ B ) = W B N ⋅ b c o n v + b B N \begin{aligned} \hat{b} &= \frac{\gamma}{\sqrt{\sigma^2_{B}+ϵ}}·(b-μ_{B})+\beta \ &= \frac{\gamma}{\sqrt{\sigma^2_{B}+ϵ}}·b – \frac{\gamma}{\sqrt{\sigma^2_{B}+ϵ}}·μ_{B} + \beta \ &= \frac{\gamma}{\sqrt{\sigma^2_{B}+ϵ}}·b + (\beta – \frac{\gamma}{\sqrt{\sigma^2_{B}+ϵ}}·μ_{B} ) \ &= W_{BN}·b_{conv} + b_{BN} \end{aligned}b ^=σB 2 +ϵγ⋅(b −μB )+β=σB 2 +ϵγ⋅b −σB 2 +ϵγ⋅μB +β=σB 2 +ϵγ⋅b +(β−σB 2 +ϵγ⋅μB )=W B N ⋅b c o n v +b B N

所以上面的原结果转换为：

至此完成了卷积层和BN层的融合，可以和代码的参考文档一一对上了。

; 3. 参数融合代码实现

这里的融合代码集成了模型中，然后再另外的调用其他打码，yolov5代码如下所示：

class Model(nn.Module):
    def __init__(self, cfg='yolov5s.yaml', ch=3, nc=None, anchors=None):
        super().__init__()
        ...

        with open(cfg, errors='ignore') as f:
            self.yaml = yaml.safe_load(f)

        self.model, self.save = parse_model(deepcopy(self.yaml), ch=[ch])
        ...

    def forward(self, x, augment=False, profile=False, visualize=False):
        if augment:
            return self._forward_augment(x)
        return self._forward_once(x, profile, visualize)

    def fuse(self):
        LOGGER.info('Fusing layers... ')
        for m in self.model.modules():

            if isinstance(m, (Conv, DWConv)) and hasattr(m, 'bn'):

                m.conv = fuse_conv_and_bn(m.conv, m.bn)

                delattr(m, 'bn')

                m.forward = m.forward_fuse
        self.info()
        return self
    ...

融合Conv+BatchNorm2d的具体实现代码如下所示：

def fuse_conv_and_bn(conv, bn):

    fusedconv = nn.Conv2d(conv.in_channels,
                          conv.out_channels,
                          kernel_size=conv.kernel_size,
                          stride=conv.stride,
                          padding=conv.padding,
                          groups=conv.groups,
                          bias=True).requires_grad_(False).to(conv.weight.device)

    w_conv = conv.weight.clone().view(conv.out_channels, -1)
    w_bn = torch.diag(bn.weight.div(torch.sqrt(bn.eps + bn.running_var)))

    fusedconv.weight.copy_(torch.mm(w_bn, w_conv).view(fusedconv.weight.shape))

    b_conv = torch.zeros(conv.weight.size(0), device=conv.weight.device) if conv.bias is None else conv.bias
    b_bn = bn.bias - bn.weight.mul(bn.running_mean).div(torch.sqrt(bn.running_var + bn.eps))

    fusedconv.bias.copy_(torch.mm(w_bn, b_conv.reshape(-1, 1)).reshape(-1) + b_bn)

    return fusedconv

同时可以注意到，在fuse模块代码中还改变了模型模块的前向传播函数： m.forward = m.forward_fuse，这里是因为在Conv中是卷积+bn连续使用的，其作为整个模型的一个基础卷积模块，使用只需要改变其前向传播过程就可以融合卷积+BN层，在推理的时候可以加快速度。其代码如下：

class Conv(nn.Module):

    def __init__(self, c1, c2, k=1, s=1, p=None, g=1, act=True):
        super().__init__()
        self.conv = nn.Conv2d(c1, c2, k, s, autopad(k, p), groups=g, bias=False)
        self.bn = nn.BatchNorm2d(c2)
        self.act = nn.SiLU() if act is True else (act if isinstance(act, nn.Module) else nn.Identity())

    def forward(self, x):
        return self.act(self.bn(self.conv(x)))

    def forward_fuse(self, x):
        return self.act(self.conv(x))

class DWConv(Conv):

    def __init__(self, c1, c2, k=1, s=1, act=True):

        super().__init__(c1, c2, k, s, g=math.gcd(c1, c2), act=act)

后续：如果还想了解其他不同卷积和之间的融合或者与全连接的融合可以了解重参数化系列文章：RepVGG，RepMLP等

参考资料：

1. Fusing batch normalization and convolution in runtime

2. 卷积层与BN层的融合方式

Original: https://blog.csdn.net/weixin_44751294/article/details/125095552
Author: Clichong
Title: YOLOv5的Tricks | 【Trick4】参数重结构化（融合Conv+BatchNorm2d）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/623245/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

睿智的目标检测56——Pytorch搭建YoloV5目标检测平台

睿智的目标检测56——Pytorch搭建YoloV5目标检测平台学习前言源码下载 YoloV5改进的部分（不完全） YoloV5实现思路 * 一、整体结构解析二、网络结构解析…

人工智能 2023年7月12日
0059
【语音识别】基于支持向量机算法svm实现情感识别系统matlab代码

1 简介为了提高语音情感识别系统的识别率，研究分析了一种支持向量机核函数参数的优选方法。首先给出影响支持向量机核参数的因素，其次依据这些因素，结合 Fisher 准则和最大熵原理…

人工智能 2023年5月25日
00101
基于pytorch实现的视频分类——C3D模型论文复现

最近在学习视频分类任务，想要跑通一个更换数据集用到自己的课题上。看到了这篇文章及代码论文链接： http://vlg.cs.dartmouth.edu/c3d/c3d_vide…

人工智能 2023年7月21日
0049
医疗软件产品核心算法部分说明–转载截取

各方资料汇总说明核心算法概述算法类型：公认成熟算法：公开文献专利标准、原理简单明确、上市超过四年且无不良时间。公认成熟算法名称、原理、用途，全新算法列明名称、原理、用途，并提…

人工智能 2023年6月22日
0066
AttributeError: Can‘t get attribute ‘xxx‘ on ＜module ‘__main__‘ from ‘xxx‘

AttributeError: Can’t get attribute ‘xxx’ on 问题重述：我在学习pytorch时，跟着网课学到使用p…

人工智能 2023年5月27日
0097
【AcWing14】【LeetCode】KMP算法-28/796/214/459

这个博主的图解原理非常好！ https://leetcode.cn/problems/shortest-palindrome/solution/tu-jie-kmpsuan-fa-…

人工智能 2023年6月29日
0068
【神经网络】神经网络发展趋势及研究热点

1.神经网络研究动向神经网络虽已在许多领域应用中取得了广泛的成功，但其发展还不十分成熟，还有一些问题需进一步研究。(1) 神经计算的基础理论框架以及生理层面的研究仍需深入。这方面的…

人工智能 2023年7月14日
0052
使用C语言实现矩阵转置（稀疏矩阵）

目录 1.转置矩阵（普通矩阵） 2.转置矩阵（稀疏矩阵）（1）稀疏矩阵（2）稀疏矩阵的压缩存储方式（3）理论运算方法 1.转置矩阵（普通矩阵）矩阵的转置：根据主对角元素作为…

人工智能 2023年7月4日
0060
主成分分析（PCA）原理及其python实现

主成分分析一、概述 * 1.1 问题提出 1.2 降维的作用二、主成分分析(PCA)主要思想三、相关数学知识四、PCA实现步骤 * 4.1 特征值分解矩阵 4.2 SVD分…

人工智能 2023年7月28日
0064
100天精通Python（爬虫篇）——第47天：selenium自动化操作浏览器

### 回答1： Python+ Selenium 自动化_测试是一种基于 _Python_编程语言和 _Selenium 自动化_测试框架的测试方法。它可以模拟用户在 _浏览器_…

人工智能 2023年7月4日
0063
KBQA 常用的问答数据集之 GrailQA

目录 1. 论文相关 2. 数据集概述 2.1 内容介绍 2.2 数据统计 3. 模型性能比较论文相关 GrailQA [Gu et al., 2021] 源自论文：Beyond…

人工智能 2023年6月1日
00103
聚类分析的基本思想_【Kmeans聚类】在SPSS中进行医学数据的Kmeans聚类分析——【杏花开医学统计】…

杏花开生物医药统计一号在手，统计无忧！关注在SPSS中进行医学数据的 K-means聚类分析关键词：SPSS、聚类分析 [TencentCloudSDKException…

人工智能 2023年6月2日
0076
抓取领域相关论文及摘要（有源码会附上源码）

1、Vision-based Robotic Grasping From Object Localization, Object Pose Estimation to Grasp …

人工智能 2023年5月26日
00113
大数据分析那点事

写在前文，首先声明博主对数据分析领域也在不断学习当中，文章中难免可能会出现一些错误，欢迎大家及时指正，博主在此之前也曾对不同量级、不同领域的数据进行过分析，但是在过程中总是感觉有…

人工智能 2023年6月19日
00120
sagemaker在终端节点部署Tensorflow模型并调用

sagemaker 是aws的托管机器学习的服务，具体的请看什么是 Amazon SageMaker？ – Amazon SageMaker Amazon SageM…

人工智能 2023年5月25日
00111
【监督学习】多层感知器MLP（含代码实现）

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年7月25日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

YOLOv5的Tricks | 【Trick4】参数重结构化（融合Conv+BatchNorm2d）

文章目录

大家都在看