RepVGG论文笔记

2023年7月1日上午10:19 • 人工智能 • 阅读 61

文章目录

*
– RepVGG个人笔记
–
+ 前言
+ RepVGG模型
+
* 2.1主要架构
* 2.2RepVGG Block构造
* 2.3为什么构造RepVGG
*
– 2.3.1更快的速度
– 2.3.2更节省内存
– 2.3.3更加灵活
+ 方法论：多分支融合
+
* 3×3卷积和1×1卷积融合
*
– identity分支等效特殊权重卷积层
* 卷积+BN融合
* 参考文章

RepVGG个人笔记

前言

RepVGG是一种简单的VGG式结构,大量使用3×3卷积，BN层，Relu激活函数，利用重参数化提升性能，准确率直逼其他SOTA网络，特点是训练时使用多分支网络，推理时融合多分支为单分支。

RepVGG模型

2.1主要架构

RepVGG模型的整体结构：将20多层3×3卷积堆起来，分成5个stage，每个stage的第一层是stride=2的降采样，每个卷积层用ReLU作为激活函数。

RepVGG模型的详细结构：RepVGG-A的5个stage分别有[1, 2, 4, 14, 1] 层，RepVGG-B的5个stage分别有[1, 4, 6, 16, 1] 层，宽度是[64,128, 256, 512]的若干倍。

2.2RepVGG Block构造

训练时，为每一个3×3卷积层添加 平行的1×1卷积分支和 恒等映射分支，构成一个RepVGG Block。借鉴ResNet的做法，区别在于ResNet是每隔 两层或三层加一分支，RepVGG Block是每层都加。

部署时，我们将1×1卷积分支和恒等映射分支以及3×3卷积融合成一个3×3卷积达到单路结构的目的。

; 2.3为什么构造RepVGG

2.3.1更快的速度

现有的 计算库（如CuDNN,Intel MKL）和硬件针对3×3卷积有深度的优化，相比其他卷积核，3×3卷积 计算密度更高，更加有效。

; 2.3.2更节省内存

以残差块结构为例子，它有2个分支，其中主分支经过卷积层，假设前后张量维度相同，我们认为是一份显存消耗，另外一个旁路分支需要保存初始的输入结果，同样也是一份显存消耗， 这样在运行的时候是占用了两份显存，直到最后一步将两个分支结果Add，显存才恢复成一份。而 Plain结构只有一个主分支，所以其显存占用一直是一份。RepVGG主体部分只有 一种算子：3×3卷积接ReLU。在设计专用芯片时，给定芯片尺寸或造价，我们可以集成海量的 3×3卷积-ReLU计算单元来达到很高的效率。单路架构省内存的特性也可以帮我们少做存储单元.

2.3.3更加灵活

多分支结构会引入网络结构的约束， 比如Resnet的残差结构要求输入和卷积出来的张量维度要一致（这样才能相加），这种约束导致网络不易延伸拓展，也一定程度限制了通道剪枝。对应的 单路结构就比较友好，剪枝后也能得到很好的加速比。

方法论：多分支融合

3×3卷积和1×1卷积融合

假设输入是5×5，stride=1

1×1卷积前后特征图大小不变

3×3卷积在原特征图补零，卷积前后特征图大小不变

将1×1卷积核加在3×3卷积核中间，就能完成卷积分支融合

融合示例图如下：

; identity分支等效特殊权重卷积层

我们试想一下，输入与输出要相等，假设输入输出都是三通道

即每一个卷积核的通道数量，必须要求与输入通道数量一致，因为要对每一个通道的像素值要进行卷积运算，所以每一个 卷积核的通道数量必须要与 输入通道数量保持一致。

那么要保持原有三通道数据各权重应该如何初始化呢？
一个卷积核的尺寸为3x3x3，将对应通道的权重设为1其他为零，就能完好的保证输出原有值。

; 卷积+BN融合

在将 identity分支和 1×1卷积融合到 3×3卷积后，我们将BN层融到卷积中去

在融合之前我们来了解一下 Batch Norm

Batch-Normalization (BN)是一种让神经网络训练 更快、更稳定的方法(faster and more stable)。它计算每个mini-batch的均值和方差，并将其拉回到均值为0方差为1的标准正态分布。BN层通常在nonlinear function的前面/后面使用。

I n p u t : V a l u e s o f x o v e r a m i n i − b a t c h : B = { x 1 … m } ; P a r a m e t e r s t o b e l e a r n e d : γ , β O u t p u t : { y i = B N γ , β ( x i ) } μ B ← 1 m ∑ i = 1 m x i ⋯ ⋅ ( 1 ) / / m i n i − b a t c h m e a n σ B 2 ← 1 m ∑ i = 1 m ( x i − μ B ) 2 − ⋯ ( 2 ) m i n i − b a t c h v a r i a n c e x ^ i ← x i − μ B σ B 2 + ϵ ⋯ ( 3 ) n o r m a l i z e y i ← γ x ^ i + β ≡ B N γ , β ( x i ) ⋯ ( 4 ) / / s c a l e a n d s h i f t Input: Values\ of \ x \ over\ a\ mini-batch:\ \mathcal{B}=\left{x_{1 \ldots m}\right} ; Parameters to be learned: \gamma, \beta Output: \left{y_{i}=\mathrm{BN}{\gamma, \beta}\left(x{i}\right)\right} \ \mu_{\mathcal{B}} \leftarrow \frac{1}{m} \sum_{i=1}^{m} x_{i} \quad \cdots \cdot(1) \quad \quad / / mini-batch mean\ \sigma_{\mathcal{B}}^{2} \leftarrow \frac{1}{m} \sum_{i=1}^{m}\left(x_{i}-\mu_{\mathcal{B}}\right)^{2}-\cdots(2) mini-batch variance\ \widehat{x}{i} \leftarrow \frac{x{i}-\mu_{\mathcal{B}}}{\sqrt{\sigma_{\mathcal{B}}^{2}+\epsilon}} \cdots(3) normalize\ y_{i} \leftarrow \gamma \widehat{x}{i}+\beta \equiv \mathrm{BN}{\gamma, \beta}\left(x_{i}\right) \cdots(4)//scale\ and\ shift I n p u t :V a l u e s o f x o v e r a m i n i −b a t c h :B ={x 1 …m };P a r a m e t e r s t o b e l e a r n e d :γ,βO u t p u t :{y i =B N γ,β(x i )}μB ←m 1 i =1 ∑m x i ⋯⋅(1 )//m i n i −b a t c h m e a n σB 2 ←m 1 i =1 ∑m (x i −μB )2 −⋯(2 )m i n i −b a t c h v a r i a n c e x i ←σB 2 +ϵx i −μB ⋯(3 )n o r m a l i z e y i ←γx i +β≡B N γ,β(x i )⋯(4 )//s c a l e a n d s h i f t

原文的公式可能不太好理解，引入图解来解释他的作用：

首先，用(1)(2)式计算一个mini-batch之内的均值和方差

然后，用(3)式来进行normalize。这样，每个神经元的output在整个batch上是标准正态分布，在全连接网络中是对 每个神经元进行归一化，也就是每个神经元都会学习一个γ和β；在CNN中应用时，需要注意CNN的参数共享机制。每层有多少个 卷积核，就学习几个γ和β进行线性变换。

那么融合过程是怎样的呢？

训练的时候，均值mean、方差var、γ 、β是 一直在更新的，但是，在推理的时候，以上四个值都是固定了的，也就是推理的时候，均值和方差来自训练样本的数据分布。因此，在推理的时候，上面BN的计算公式可以变形为:

y i = γ x i − μ σ 2 + ε ) + β = γ σ 2 + ε x i + ( β − γ μ σ 2 + ε ) ) ) y_{i}=\gamma \frac{x_{i}-\mu}{\left.\sqrt{\sigma^{2}+\varepsilon}\right)}+\beta=\frac{\gamma}{\sqrt{\sigma^{2}+\varepsilon}} x_{i}+\left(\beta-\frac{\gamma \mu}{\left.\left.\sqrt{\sigma^{2}+\varepsilon}\right)\right)}\right)y i =γσ2 +ε)x i −μ+β=σ2 +εγx i +(β−σ2 +ε))γμ)

令 a = γ σ 2 + ε , b = β − γ μ σ 2 + ε 那么在均值 m e a n 、方差 v a r 、 γ 、 β 都是固定值的时候 B N 就是一个线性变换 y = a x i + b 令a=\frac{\gamma}{\sqrt{\sigma^{2}+\varepsilon}}, b=\beta-\frac{\gamma \mu}{\sqrt{\sigma^{2}+\varepsilon}}\那么在均值mean、方差var、γ 、β都是固定值的时候BN就是一个线性变换\y=ax_{i}+b 令a =σ2 +εγ,b =β−σ2 +εγμ那么在均值m e a n 、方差v a r 、γ、β都是固定值的时候B N 就是一个线性变换y =a x i +b
引入一个三个神经元输入的全连接网络实例方便理解：

x i = w 1 ⋅ z 1 + w 2 ⋅ z 2 + w 3 ⋅ z 3 + c y i = a x i + b = a ( w 1 ⋅ z 1 + w 2 ⋅ z 2 + w 3 ⋅ z 3 + c ) + b y i = a w 1 ⋅ z 1 + a w 2 ⋅ z 2 + a w 3 ⋅ z 3 + ( a c + b ) x_{i}=w_{1} \cdot z_{1}+w_{2} \cdot z_{2}+w_{3} \cdot z_{3}+c\ y_{i}=a x_{i}+b=a\left(w_{1} \cdot z_{1}+w_{2} \cdot z_{2}+w_{3} \cdot z_{3}+c\right)+b\ y_{i}=a w_{1} \cdot z_{1}+a w_{2} \cdot z_{2}+a w_{3} \cdot z_{3}+(a c+b)x i =w 1 ⋅z 1 +w 2 ⋅z 2 +w 3 ⋅z 3 +c y i =a x i +b =a (w 1 ⋅z 1 +w 2 ⋅z 2 +w 3 ⋅z 3 +c )+b y i =a w 1 ⋅z 1 +a w 2 ⋅z 2 +a w 3 ⋅z 3 +(a c +b )

参考文章

基础 | BatchNorm详解 – 知乎 (zhihu.com)

图解RepVGG – 知乎 (zhihu.com)

RepVGG 论文详解 – 知乎 (zhihu.com)

RepVGG：极简架构，SOTA性能，让VGG式模型再次伟大（CVPR-2021） – 知乎 (zhihu.com)

(25条消息) CNN卷积核与通道讲解_奥卡姆的剃刀的博客-CSDN博客_cnn卷积核

-2021） – 知乎 (zhihu.com)](https://zhuanlan.zhihu.com/p/344324470)

(25条消息) CNN卷积核与通道讲解_奥卡姆的剃刀的博客-CSDN博客_cnn卷积核

(25条消息) 深度学习CNN网络推理时Batchnorm层和卷积层的融合，以提升推理速度。_songlixiangaibin的博客-CSDN博客

Original: https://blog.csdn.net/qq_45228845/article/details/123927543
Author: 深度学习渣
Title: RepVGG论文笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663183/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

人工智能导论考试

简答题批量梯度递减和随机梯度递减随机梯度算法（SGD）。相比于正统的批量梯度算法（BGD）网络参数调参策略：全部样例计算一次误差，调整一次参数，SGD的网络参数调参策略是：…

人工智能 2023年6月25日
0092
什么是正则化

问题：什么是正则化？详细介绍：正则化是机器学习中用来防止模型过拟合的一种技术。在模型训练过程中，正则化通过对模型的复杂度进行惩罚来避免模型对训练数据的过度拟合。如果不使用正则化…

人工智能 2023年12月31日
0047
【论文分享】不平衡网络流量分类方法 TA-GAN:GAN basedTraffic Augmentation for Imbalanced Network Traffic Classification

TA-GAN: GAN based Traffic Augmentation for Imbalanced Network Traffic Classification摘要：本文提…

人工智能 2023年7月3日
0094
PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差

PyTorch数据归一化处理：transforms.Normalize及计算图像数据集的均值和方差 1.数据归一化处理：transforms.Normalize * 1.1 理解t…

人工智能 2023年6月15日
0068
机器学习的分类

机器学习的一般分类为：监督学习、无监督学习、半监督学习和强化学习。下面分别对其进行简要的介绍。监督学习是从有标签的数据中学习统计规律，即找到一个映射函数来映射输入变量（x…

人工智能 2023年6月30日
00152
卷积层中的卷积操作是如何实现的

问题：卷积层中的卷积操作是如何实现的？介绍在深度学习中，卷积神经网络（Convolutional Neural Network，CNN）是一种广泛应用于图像处理和计算机视觉任务…

人工智能 2024年1月1日
0026
基于Python构建机器学习Web应用

目录一、内容介绍 1.Onnx模型 ①skl2onnx库安装 2.Netron安装二、模型构建 1.数据加载 2.划分可训练特征与预测标签 3.训练模型 ①第三方库导入 ②数据…

人工智能 2023年7月27日
0055
Python中pd.to_datetime、groupby、range(len())

1 pd.to_datetime 2 groupby 2.1 groupby函数功能 2.3 举例 3 range(len()) 今日份笔记： 1 pd.to_datetime p…

人工智能 2023年7月7日
0069
监督机器学习——基于手写数字数据集的图像分类

监督机器学习——基于手写数字数据集的图像分类 MNIST手写数据集介绍输入数据集是 MNIST，这是机器学习中的一个经典数据集，由大小为 28×28 的手写数字的灰度图像组成。原…

人工智能 2023年7月3日
0055
MMPose姿态估计+人体关键点识别效果演示

MMPose——开源姿态估计算法库（附人体关键点识别效果演示）一、简介 1.1 背景首先姿态估计属于计算机视觉领域的一个基础研究方向。MMPose是基于Pytorch的姿态估计…

人工智能 2023年6月16日
0083
轨迹预测论文解读系列——几种经典的网络

背景首先问大家一个问题，什么是自动驾驶车辆的最大挑战？答案是理解行人的运动并且预知行人之后的轨迹。人类的运动可以被认为是多模态性的，即人类有可能在任何给定的时刻向多个方向移动。而…

人工智能 2023年6月16日
0097
Python中random函数用法整理

目录 [1. random.random(): 返回随机生成的一个浮点数，范围在0,1)之间 [2. random.uniform(a, b): 返回随机生成的一个浮点数，范围在a…

人工智能 2023年7月3日
0090
ucinet计算聚类系数大于1怎么办_Clustering coefficient(集聚系数)

Clustering coefficient(集聚系数) Du00 du00cs@gmail.com 2011.4.21 [TencentCloudSDKException] co…

人工智能 2023年6月2日
00118
论文阅读笔记–Data-Free Knowledge Distillation for Heterogeneous Federated Learning（FEDGEN）

链接：https://arxiv.org/abs/2105.10056v2这篇文章发表在ICML 2021，讲的是如何解决联邦学习中的数据异构问题。作者认为现有的知识蒸馏（Know…

人工智能 2023年6月16日
0072
1维线性回归

w= 1.0595238095237538 b= -117.79761904760 undefined Original: https://www.cnblogs.com/canx…

人工智能 2023年6月4日
0078
Python Pandas缺失值处理

在一些数据分析业务中，数据缺失是我们经常遇见的问题，缺失值会导致数据质量的下降，从而影响模型预测的准确性，这对于机器学习和数据挖掘影响尤为严重。因此妥善的处理缺失值能够使模型预测更…

人工智能 2023年7月6日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31