深度学习中的常用的归一化方法汇总

2023年6月25日上午6:24 • 人工智能 • 阅读 142

深度学习中的归一化

一. 归一化解决什么问题?

在训练的时候，输入分布的变化要求较低的学习率和较为严谨的参数初始化，使得训练模型困难。此外，各层输入分布的变化带来了一个问题，因为各层需要不断地适应新的分布,把这个问题称为 内部协变量偏移(internal covariate shift)。

二. 归一化的种类

深度学习中有以下四种常用的归一化方法:

Batch Normalization
Layer Normalization
Instance Normalization
Group Normalization

; 1. Batch Normalization

Batch Normalization就是 将每个batch之间一一对应的每个channel相加,求均值,和方差之后做归一化处理.最后再加入缩放和平移变量. 均值计算,就是在一个mini-batch 里面,将每个channel中的值累加起来,再除以N × H × W N \times H \times W N ×H ×W, 最后这个值是个1维度的数值,即有多少个channel,其维度就为:(1, channel, 1, 1).

例子：该批次内有10张图片，每张图片有三个通道RBG，每张图片的高、宽是H、W，那么均值就是 计算10张图片R通道的像素数值总和除以 N × H × W N \times H \times W N ×H ×W，再计算B通道全部像素值总和除以N × H × W N \times H \times W N ×H ×W，最后计算G通道的像素值总和除以N × H × W N \times H \times W N ×H ×W。方差的计算类似。

训练网络时候具体算法公式如下:

有两个需要学习的变量γ , β \gamma , \beta γ,β,分别是缩放和平移. 这两个参数的维度等于张量的channel维度.

而在 推理的时候,上面的均值计算和方差计算则有所差异.

在训练状态下，γ , β \gamma , \beta γ,β是可训练参数，在推理状态下，直接加载训练好的数值。而 均值和方差在推理的时候是基于所有批次的期望计算所得. 具体源码可以参考[3]的讲解.

2. Layer Normalization

Layer Normalization 是在一个样本里面,对每个channel进行求均值和方差. 不同于BN, LN不依赖于batch size, 因此不需要批训练，在单条数据内部就能归一化. 和BN计算的方法类似, 如下所示:

μ ( x ) = 1 C H W ∑ i = 1 C H W x i \mu (x) = \frac{1}{CHW} \sum_{i=1}^{CHW} x_i μ(x )=C H W 1 i =1 ∑C H W x i

σ ( x ) = 1 C H W ∑ i = 1 C H W ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{CHW} \sum_{i=1}^{CHW} (x_i – \mu)^2}σ(x )=C H W 1 i =1 ∑C H W (x i −μ)2

例子：对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W，有C个通道，长、高是W、H，LN对每个样本的C , H , W C, H, W C ,H ,W维度上计算均值和标准差. 那么均值就是 计算在该样本里面所有通道内, 像素数值总和除以 C × H × W C \times H \times W C ×H ×W。方差的计算类似。

3. Instance Normalization

Instance Normalization是针对于图像像素做归一化,最初用于图像的风格迁移任务中.在图像风格化中，生成结果主要依赖于某个图像实例，feature map 的各个 channel 的均值和方差会影响到最终生成图像的风格。所以对整个batch归一化不适合图像风格化中，因而对H、W做归一化。可以加速模型收敛，并且保持每个图像实例之间的独立。

μ ( x ) = 1 H W ∑ i = 1 H W x i \mu (x) = \frac{1}{HW} \sum_{i=1}^{HW} x_i μ(x )=H W 1 i =1 ∑H W x i

σ ( x ) = 1 H W ∑ i = 1 H W ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{HW} \sum_{i=1}^{HW} (x_i – \mu)^2}σ(x )=H W 1 i =1 ∑H W (x i −μ)2

例子：对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W，有C个通道，长、高是W、H。IN对每个样本上的每个通道计算均值和标准差. 那么均值就是 计算样本里每个通道内的像素数值总和除以 H × W H \times W H ×W。方差的计算类似。

4. Group Normalization

Group Normalization是为了解决BN对较小的mini-batch size效果差的问题。GN适用于占用显存比较大的任务，例如图像分割。对这类任务，可能 batch size 只能是个位数，再大显存就不够用了。而当 batch size比较小的时候，BN 的表现很差，因为没办法通过几个样本的数据量，来近似总体的均值和标准差。

GN的主要思想就是在channel方向group, 然后每个group内做归一化.计算( C / G ) × H × W (C/G) \times H \times W (C /G )×H ×W的均值和方差, 与batch size无关.

μ ( x ) = 1 ( C / G ) H W ∑ C = g C / G C / G x i \mu (x) = \frac{1}{(C/G) HW} \sum_{C=g C/G}^{C/G} x_i μ(x )=(C /G )H W 1 C =g C /G ∑C /G x i

σ ( x ) = 1 ( C / G ) H W ∑ C = g C / G C / G ( x i − μ ) 2 \sigma (x) = \sqrt{\frac{1}{(C/G) HW} \sum_{C=g C/G}^{C/G} (x_i – \mu)^2}σ(x )=(C /G )H W 1 C =g C /G ∑C /G (x i −μ)2

例子：对于feature map x ∈ R N × C × H × W x \in \R^{N \times C \times H \times W}x ∈R N ×C ×H ×W，有C个通道，长、高是W、H。GN对每个样本上的( C / G ) (C/G)(C /G )个通道计算均值和标准差. 那么均值就是 计算样本里( C / G ) (C/G)(C /G ) 个通道内的像素数值总和除以 ( C / G ) × H × W (C/G) \times H \times W (C /G )×H ×W。方差的计算类似。

如果我们将组的数量设置为G = 1，则GN变为LN 。LN假设层中的所有通道都做出”类似的贡献”。GN比LN受限制更少，因为假设每组通道（而不是所有通道）都受共享均值和方差的影响; 该模型仍然具有为每个群体学习不同分布的灵活性。这导致GN相对于LN的代表能力提高。如果我们将组的数量设置为G = C（即每组一个通道），则GN变为IN。但是IN只能依靠空间维度来计算均值和方差，并且错过了利用信道依赖的机会。

三. 总结

BN, IN, GN,其γ \gamma γ和β \beta β都是维度等于通道数C C C的矩阵.而对于LN, 其γ \gamma γ和β \beta β都是维度等于normalizaed_shape的向量.
BN, IN可以设置参数 momentum和track_running_stats来获得在整体数据上更准确的均值和标准差. LN和GN只能计算当前batch内数据的真实均值和标准差.
BN是在batch上，对N、H、W做归一化，而保留通道 C 的维度。BN对较小的batch size效果不好。BN适用于固定深度的前向神经网络，如CNN，不适用于RNN。
LN在通道方向上，对C、H、W归一化，主要对RNN效果明显。
IN在图像像素上，对H、W做归一化，用在风格化迁移。
GN将channel分组，然后再做归一化。

Reference:

https://www.cnblogs.com/jiangkejie/p/14291407.html
https://blog.csdn.net/bestrivern/article/details/102871014
https://zhuanlan.zhihu.com/p/93643523
https://zhuanlan.zhihu.com/p/337732517

Original: https://blog.csdn.net/wuchaohuo724/article/details/126607216
Author: Tianchao龙虾
Title: 深度学习中的常用的归一化方法汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/650386/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Matlab图像分类(AlexNet)

Demo代码以及测试数据下载：https://download.csdn.net/download/Ango_/15946085 图像分类是神经网络最典型的应用之一，常用的分类网络…

人工智能 2023年7月3日
0057
人工智能–遗传算法求解TSP问题

文章目录前言一、遗传算法的概念 * – 遗传算法（Genetic Algorithm, GA）：二、解决的问题对象三、程序步骤 * 1.针对TSP问题，确定编…

人工智能 2023年7月30日
0063
【科普】联邦知识蒸馏概述与思考

关注公众号，发现CV技术之美随着深度学习与大数据的进一步发展，效果好的模型往往有着较大的规模和复杂的结构，往往计算效率与资源使用方面开销很大，无法部署到一些边缘设备、移动终端或者…

人工智能 2023年5月28日
0077
Android studio配置opencv的JNI接口，实现C++代码编程

回答1： 1. 下载库首先，你需要下载库。你可以从官网下载最新版本的库，也可以从GitHub上下载最新的开发版本。 2. 安装库下载完成后，你需要将库安装到你的计算机…

人工智能 2023年7月20日
0043
健康管理师【16】

1.健康促进的核心策略为 A.实行干预措施B.社会动员C.对群众来说强调自愿D.非政府组织的参与E.专业人员的参与 2.下列属于肥胖症高危人群管理措施的是 3.以下步骤不属于健康风…

人工智能 2023年7月17日
0044
keras篇（1）–model.fit()的输入数据

人生苦短，我用keras!!! 大家都知道keras极大的简化了神经网络的搭建，但是大家知道如何输入数据吗，数据大时，直接numpy矩阵输入使内存爆满？有试过生成器吗？有试过tf….

人工智能 2023年5月25日
00149
语义分割分布式训练小结

借鉴文档https://blog.csdn.net/weixin_44966641/article/details/121872773https://zhuanlan.zhihu….

人工智能 2023年7月23日
0049
Apriori与FP-Growth算法对比

源代码：仓库地址数据挖掘常用算法对比测试 Usage git clone git@github.com:JackHCC/Apriori-and-FP_Growth.git cd …

人工智能 2023年7月17日
0058
Tushare 数据准确性

Tushare ID：491356 对于写一个策略，策略成功与否在于以下三点： 1.策略的数据是否正确 2.策略是否可行 3.代码能否运行成功我尤其看重数据来源，以保证数据的准确…

人工智能 2023年7月9日
0083
一文读懂机器学习分类全流程

目录前言提出问题一、介绍 1.分类简介 2.imblearn的安装二、数据加载及预处理 1.加载并查看数据 ①导入Python第三方库 ②调用并查看数据 2.查看数据分布 …

人工智能 2023年6月30日
0070
机器学习实战-泰坦尼克号生存预测案例

泰坦尼克号生存预测案例操作平台：Jupyter Notebook 实验数据：从官方下载的泰坦尼克号测试集与训练集使用语言：python 实验步骤：这里首先我们看看这些标签代表…

人工智能 2023年7月28日
0043
pandas | 使用pandas进行数据处理——DataFrame篇

今天是 pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Serie…

人工智能 2023年6月2日
0084
【数据可视化应用】绘制森林图（附Python和R语言代码）

森林图(Forest Plot)的简单介绍森林图(Forest Plot) 常用于Meta分析结果展示使用。森林图(可以将观察到的效果、置信区间以及每个研究对象的权重等信息全部表…

人工智能 2023年7月15日
0057
点云聚类汇总（MATLAB）

文章目录一、简介二、相关代码三、实现效果参考资料一、简介 MATLAB中存在许多聚类算法，这里总结几个我之前使用过的几种聚类算法，主要有：dbscan、k-means和f…

人工智能 2023年5月31日
0095
OpenCV-Python实战（9）——OpenCV用于图像分割的阈值技术

OpenCV-Python实战（9）——OpenCV用于图像分割的阈值技术 * – 0. 前言 – 1. 阈值技术简介 – 2. 简单的阈值技术…

人工智能 2023年7月19日
0047
一些基于新闻表示和用户表示的新闻推荐模型总结：NPA/ NAML/ LSTUR/ NRMS

前言上上上次组会研一学长汇报了一篇数据集文章： MIND: A Large-scale Dataset for News Recommendation，是微软为新闻推荐而发布的…

人工智能 2023年6月1日
00147

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30