终于知道为什么要freeze BN层，以及如何freeze(这个trick真的可以加快收敛）

2023年6月15日下午3:38 • 人工智能 • 阅读 81

一、什么是Batch Normalization（BN)层

BN层是数据归一化的方法，一般都是在深度神经网络中，激活函数之前，我们在训练神经网络之前，都会对数据进行预处理，即减去均值和方差的归一化操作。但是随着网络深度的加深，函数变的越来越复杂，每一层的输出的数据分布变化越来越大。BN的作用就是把数据强行拉回我们想要的比较好的正态分布下。这样可以在一定程度上避免梯度爆炸或者梯度消失的问题，加快收敛的速度。

二、BN是如何操作的

I n p u t : B = x 1… m ; γ , β ( 参数需要学习 ) Input: B = {x_{1…m}}; \gamma, \beta(参数需要学习)I n p u t :B =x 1 …m ;γ,β(参数需要学习)
O u t p u t : y i = B N γ β ( x i ) Output: {y_i = BN_{\gamma\beta}(x_i)}O u t p u t :y i =B N γβ(x i )
u B ← 1 m ∑ i = 1 m x i u_B \leftarrow \frac{1}{m}\sum_{i =1}^mx_i u B ←m 1 i =1 ∑m x i
σ B 2 ← 1 m ∑ i = 1 m ( x i − u B ) 2 \sigma_B^2 \leftarrow \frac{1}{m}\sum_{i =1}^m(x_i – u_B)^2 σB 2 ←m 1 i =1 ∑m (x i −u B )2
x ~ ← x i − u B σ B 2 + ϵ \tilde{x} \leftarrow \frac{x_i – u_B}{\sqrt{\sigma_B^2+\epsilon}}x ~←σB 2 +ϵx i −u B
y i = γ x ~ i + β y_i = \gamma\tilde{x}_i+\beta y i =γx ~i +β

BN工作流程：
1、计算当前batch_size数据的均值和方差；
2、将当前batch内的数据，normalize到均值为0，方差为1的分布上；
3、然后对normalized后的数据进行缩放和平移，缩放和平移的γ 和 β \gamma和\beta γ和β是可学习的。

BN层的状态包含4个参数：

weight，即缩放操作的\gamma
bias，缩放操作的\beta
running_mean，训练阶段在全训练数据上统计的均值，测试阶段会用到
running_var，训练阶段在全训练数据上统计的方差，测试阶段会用到

weight和bias这两个参数需要训练，而running_mean、running_val不需要训练，它们只是训练阶段的统计值。
训练时，均值、方差分别是该批次内数据相应维度的均值与方差；
推理时，均值、方差是基于所有批次的期望计算所得，

BN层的使用：
torch.nn.BatchNorm1d(num_features, eps=1e-05, momentum=0.1, affine=True, track_running_stats=True, device=None, dtype=None)
momentum：估计running_mean和 ruuning_var时使用
affine：如果为true，就学习参数γ 和 β \gamma和\beta γ和β，否则不学习。
track_running_stats：如果为true，持续跟踪running_mean，running_var

三、BN最大的作用

加快收敛。

四、为什么要freeze BN层

BN层在CNN网络中大量使用，可以看上面bn层的操作，第一步是计算当前batch的均值和方差，也就是bn依赖于均值和方差，如果batch_size太小，计算一个小batch_size的均值和方差，肯定没有计算大的batch_size的均值和方差稳定和有意义，这个时候，还不如不使用bn层，因此可以将bn层冻结。另外，我们使用的网络，几乎都是在imagenet上pre-trained，完全可以使用在imagenet上学习到的参数。

五、如何freeze BN层

有两种，一种是在训练阶段，将bn层变为eval()，即不更新统计running_mean和runn_val；另一种是需要将bn层的requires grad = False，BN层的参数weight和bias不优化，更新。
frozen: stop gradient update in norm layers
norm_eval: stop moving average statistics update in norm layers

def train(self, model=True):
  freeze_bn = False
  freeze_bn_affine = False
  supper(myNet, self).train(mode)
  if freeze_bn:
      print ("Freezing Mean/Var of BatchNorm2D.")
      for m in self.model.modules():
          if isinstance(m, nn.BatchNorm2d):
              m.eval()
      if freeze_bn_affine:
          print ("Freezeing Weight/Bias of BatchNorm2D.")
          if freeze_bn_affine:
              m.weight.requires_grad = False
              m.bias.requires_grad = False

两种freeze BN的方式，如何使用，我们来看一下《MMDetection: Open MMLab Detection Toolbox and Benchmark》里面的相关实验，在mmdetection中 eval = True, requires grad = True是默认设置，不更新BN层的统计信息，也就是running_var和running_mean，但是优化更新其weight和bias的学习参数。

终于知道为什么要freeze BN层，以及如何freeze(这个trick真的可以加快收敛）

当GPU内存限制时，batch_size只能设置很小，例如1或者2，因此会对BN层进行freeze。上面的table6 时eval和requires_grad不同组合时的效果，该实验使用的网络是Mask R-CNN。Table 6显示，lr schedulex1时，更新统计信息，即eval = False，会损害网络性能，当eval = True，对权重weight 和 bias是否更新，即requires_grad = False or True，影响不大；但是lr_schedulex2中，eval=True, requires_grad = True 效果最好。

Original: https://blog.csdn.net/weixin_45209433/article/details/123474259
Author: 仙女修炼史
Title: 终于知道为什么要freeze BN层，以及如何freeze(这个trick真的可以加快收敛）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/615092/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Node.js实战】一文带你开发博客项目之登录（前置知识）

个人简介 👀 个人主页：前端杂货铺🙋‍♂️ 学习方向：主攻前端方向，也会涉及到服务端📃 个人状态：在校大学生一枚，已拿多个前端 offer（秋招）🚀 未来打算：为中国的工业软…

人工智能 2023年6月28日
0087
JavaScript游戏开发（2）（笔记）

文章目录五、傻瓜射击游戏（简单的游戏构建） * 5.1 准备 5.2 控制乌鸦的刷出频率 5.3 回收不需要的乌鸦 5.4 绘制乌鸦图像以及动画 5.5 计分 5.6 简单的碰撞…

人工智能 2023年6月30日
0055
如何选择合适的学习率和迭代次数

如何选择合适的学习率和迭代次数 1. 介绍在机器学习中，选择合适的学习率（learning rate）和迭代次数（number of iterations）是非常重要的，因为它们…

人工智能 2024年1月1日
0058
PyTorch中的张量是什么？它们与Numpy中的数组有什么区别

引言本文将对PyTorch中的张量进行详细介绍，并比较其与Numpy中的数组的区别。我们将首先介绍张量的概念和算法原理，然后给出其数学公式推导和计算步骤。最后，我们将通过一个复杂…

人工智能 2024年1月4日
0054
实践题目：使用pandas处理excel多行到多列

文章目录前言一、pandas是什么？二、使用步骤 1.引入库 2.读入数据总结前言使用pandas实现excel的复杂多列到多行转换一、需求使用pandas实现ex…

人工智能 2023年7月8日
0065
2_数据分析—认识pandas

文章目录一、认识 pandas * 1.1 pandas有两个数据类型DateFrame和Series 1.2 载入数据 1.3 查看DataFrame数据的每列的名称 1.4 …

人工智能 2023年7月7日
0086
ubuntu20.04 RTK3060显卡安装CUDA-11.3、CUDNN-8.2.1、Anaconda3

本文介绍了RTK3060安装CUDA-11.3的过程。 1、下载cuda-11.3 NVIDIA官方下载地址： https://developer.nvidia.com/cuda-…

人工智能 2023年7月22日
0058
训练神经网络解决二分类问题的原理

昨日训练一个二分类的神经网络，最后一层忘记加sigmoid，发现自己一直做回归的任务，对分类这块还真不太熟练，因此写下这篇博文作为回顾。 KL散度是机器学习中常用的一个指标，用于衡…

人工智能 2023年7月2日
0075
语言学句法分析树形图怎么画_科学网—《泥沙龙笔记：漫谈自动句法分析和树形图表达》 – 李维的博文…

我: 关键是，一个 real life robust parser 可能不能把所有句子 parse 对，但是每个完整句法树中间可以分解为n个binary的依存关系，然后可以数一数这…

人工智能 2023年6月1日
0077
【Python】数据分析优秀案例&项目经历-用数据分析能力构建高分学生人群画像

（有需要完整代码和数据的可以评论留下你的邮箱，我会尽快发送给你！）大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感…

人工智能 2023年7月16日
0066
Document-Level Event Role Filler Extraction using Multi-Granularity Contextualized Encodin（2020）论文笔记

背景当识别事件参数所需的信息分布在多个句子中时,需要更大的上下文视图来确定哪些文本跨度对应于事件角色填充.完整的文档级提取问题通常需要角色填充词提取、名词短语共指消解和事件跟踪(…

人工智能 2023年6月1日
0077
Point Cloud Transformer的pytorch代码实现

目录 1. Attention 1.1 Self Attention 1.2 Offset Attention 2. Sampling and Grouping 2.1 KNN 2…

人工智能 2023年7月23日
0085
数据挖掘知识点总结

1.数据挖掘产生的背景?驱动力是什么？四种主要技术激发了人们对数据挖掘技术的开发、应用和研究的兴趣：超大规模数据库的出现，如商业数据仓库和计算机自动收集数据记录手段的普及先进的计算…

人工智能 2023年6月19日
00111
【语音增强】基于matlab多维谱自适应小波语音信号去噪【含Matlab源码 1972期】

⛄一、自适应小波语音信号去噪 1 引言在传输过程中，语音信号容易受到环境噪声等语音的干扰，降低了语音通信的质量，影响了语音处理系统的工作。因此，语音净化技术在现代语音通信和数字音频…

人工智能 2023年5月25日
0089
卷积神经网络网络详解(上）

什么是卷积神经网络卷积神经网络是一种带有卷积结构的深度神经网络，卷积结构可以减少深层网络占用的内存量，其三个关键的操作，其一是局部感受野，其二是权值共享，其三是 poolin…

人工智能 2023年7月14日
0075
独热编码（One-Hot Encoding）

一、独热编码出现之前：针对无序离散的分类特征，机器学习算法的分类器并不能直接进行数据处理。因为，分类器通常处理的数据是连续且有序的。但是我们可以对这些离散的特征数据建立映射表来让…

人工智能 2023年6月12日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31