深度学习中的常用的归一化方法汇总

深度学习中的归一化

一. 归一化解决什么问题?

在训练的时候,输入分布的变化要求较低的学习率和较为严谨的参数初始化,使得训练模型困难。此外,各层输入分布的变化带来了一个问题,因为各层需要不断地适应新的分布,把这个问题称为 内部协变量偏移(internal covariate shift)。

二. 归一化的种类

深度学习中有以下四种常用的归一化方法:

  • Batch Normalization
  • Layer Normalization
  • Instance Normalization
  • Group Normalization

深度学习中的常用的归一化方法汇总

; 1. Batch Normalization

Batch Normalization就是 将每个batch之间一一对应的每个channel相加,求均值,和方差之后做归一化处理.最后再加入缩放和平移变量. 均值计算,就是在一个mini-batch 里面,将每个channel中的值累加起来,再除以N × H × W N \times H \times W N ×H ×W, 最后这个值是个1维度的数值,即有多少个channel,其维度就为:(1, channel, 1, 1).

例子:该批次内有10张图片,每张图片有三个通道RBG,每张图片的高、宽是H、W,那么均值就是 计算10张图片R通道的像素数值总和除以 N × H × W N \times H \times W N ×H ×W,再计算B通道全部像素值总和除以N × H × W N \times H \times W N ×H ×W,最后计算G通道的像素值总和除以N × H × W N \times H \times W N ×H ×W。方差的计算类似。

训练网络时候具体算法公式如下:

深度学习中的常用的归一化方法汇总

有两个需要学习的变量γ , β \gamma , \beta γ,β,分别是缩放和平移. 这两个参数的维度等于张量的channel维度.

而在 推理的时候,上面的均值计算和方差计算则有所差异.

深度学习中的常用的归一化方法汇总

在训练状态下,γ , β \gamma , \beta γ,β是可训练参数,在推理状态下,直接加载训练好的数值。而 均值和方差在推理的时候是基于所有批次的期望计算所得. 具体源码可以参考[3]的讲解.

2. Layer Normalization

Layer Normalization 是在一个样本里面,对每个channel进行求均值和方差. 不同于BN, LN不依赖于batch size, 因此不需要批训练,在单条数据内部就能归一化. 和BN计算的方法类似, 如下所示:

μ ( x ) = 1 C H W ∑ i = 1 C H W x i \mu (x) = \frac{1}{CHW} \sum_{i=1}^{CHW} x_i μ(x )=C H W 1 ​i =1 ∑C H W ​x i ​

σ ( x ) = 1 C H W ∑ i = 1 C H W ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{CHW} \sum_{i=1}^{CHW} (x_i – \mu)^2}σ(x )=C H W 1 ​i =1 ∑C H W ​(x i ​−μ)2 ​

例子:对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W,有C个通道,长、高是W、H,LN对每个样本的C , H , W C, H, W C ,H ,W维度上计算均值和标准差. 那么均值就是 计算在该样本里面所有通道内, 像素数值总和除以 C × H × W C \times H \times W C ×H ×W。方差的计算类似。

3. Instance Normalization

Instance Normalization是针对于图像像素做归一化,最初用于图像的风格迁移任务中.在图像风格化中,生成结果主要依赖于某个图像实例,feature map 的各个 channel 的均值和方差会影响到最终生成图像的风格。所以对整个batch归一化不适合图像风格化中,因而对H、W做归一化。可以加速模型收敛,并且保持每个图像实例之间的独立。

μ ( x ) = 1 H W ∑ i = 1 H W x i \mu (x) = \frac{1}{HW} \sum_{i=1}^{HW} x_i μ(x )=H W 1 ​i =1 ∑H W ​x i ​

σ ( x ) = 1 H W ∑ i = 1 H W ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{HW} \sum_{i=1}^{HW} (x_i – \mu)^2}σ(x )=H W 1 ​i =1 ∑H W ​(x i ​−μ)2 ​

例子:对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W,有C个通道,长、高是W、H。IN对每个样本上的每个通道计算均值和标准差. 那么均值就是 计算样本里每个通道内的像素数值总和除以 H × W H \times W H ×W。方差的计算类似。

4. Group Normalization

Group Normalization是为了解决BN对较小的mini-batch size效果差的问题。GN适用于占用显存比较大的任务,例如图像分割。对这类任务,可能 batch size 只能是个位数,再大显存就不够用了。而当 batch size比较小的时候,BN 的表现很差,因为没办法通过几个样本的数据量,来近似总体的均值和标准差。

GN的主要思想就是在channel方向group, 然后每个group内做归一化.计算( C / G ) × H × W (C/G) \times H \times W (C /G )×H ×W的均值和方差, 与batch size无关.

μ ( x ) = 1 ( C / G ) H W ∑ C = g C / G C / G x i \mu (x) = \frac{1}{(C/G) HW} \sum_{C=g C/G}^{C/G} x_i μ(x )=(C /G )H W 1 ​C =g C /G ∑C /G ​x i ​

σ ( x ) = 1 ( C / G ) H W ∑ C = g C / G C / G ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{(C/G) HW} \sum_{C=g C/G}^{C/G} (x_i – \mu)^2}σ(x )=(C /G )H W 1 ​C =g C /G ∑C /G ​(x i ​−μ)2 ​

例子:对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W,有C个通道,长、高是W、H。GN对每个样本上的( C / G ) (C/G)(C /G )个通道计算均值和标准差. 那么均值就是 计算样本里( C / G ) (C/G)(C /G ) 个通道内的像素数值总和除以 ( C / G ) × H × W (C/G) \times H \times W (C /G )×H ×W。方差的计算类似。

如果我们将组的数量设置为G = 1,则GN变为LN 。LN假设层中的所有通道都做出”类似的贡献”。GN比LN受限制更少,因为假设每组通道(而不是所有通道)都受共享均值和方差的影响; 该模型仍然具有为每个群体学习不同分布的灵活性。这导致GN相对于LN的代表能力提高。如果我们将组的数量设置为G = C(即每组一个通道),则GN变为IN。 但是IN只能依靠空间维度来计算均值和方差,并且错过了利用信道依赖的机会。

三. 总结

  • BN, IN, GN,其γ \gamma γ和β \beta β都是维度等于通道数C C C的矩阵.而对于LN, 其γ \gamma γ和β \beta β都是维度等于normalizaed_shape的向量.

  • BN, IN可以设置参数 momentum和track_running_stats来获得在整体数据上更准确的均值和标准差. LN和GN只能计算当前batch内数据的真实均值和标准差.

  • BN是在batch上,对N、H、W做归一化,而保留通道 C 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络,如CNN,不适用于RNN。

  • LN在通道方向上,对C、H、W归一化,主要对RNN效果明显。
  • IN在图像像素上,对H、W做归一化,用在风格化迁移。
  • GN将channel分组,然后再做归一化。

Reference:

  1. https://www.cnblogs.com/jiangkejie/p/14291407.html
  2. https://blog.csdn.net/bestrivern/article/details/102871014
  3. https://zhuanlan.zhihu.com/p/93643523
  4. https://zhuanlan.zhihu.com/p/337732517

Original: https://blog.csdn.net/wuchaohuo724/article/details/126607216
Author: Tianchao龙虾
Title: 深度学习中的常用的归一化方法汇总

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/650386/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球