Batch Normalization的原理和作用

2023年6月16日上午1:11 • 人工智能 • 阅读 101

机器学习高频面试问题—Batch Normalization

论文链接

Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift（Machine Learning 2015）

BN是什么

在神经网络中，每一层的输出是下一层的输入，神经网络通过反向传播调整参数。但是我们知道在反向传播的过程中，每一层的参数根据前一层参数变化前的输出进行参数的调整，区别于SVM这些有固定输入的模型，这就导致神经网络每层参数的更新和输入的更新之间存在一个延迟(Internal Covariate Shift)。对于深层模型来说，每层的输入和权重在同时变化，这样的训练相对困难。

为了避免震荡，不得不把学习率设置得足够小，但足够小又意味着学习的缓慢。为此，希望对每层输入的分布有所控制，于是就有了 Batch Normalization，其出发点是对每层的输入做Normalization，只有一个数据是谈不上Normalization的，所以是对一个batch的数据进行Normalization。

论文中给出了BN的主要步骤：

其操作可以分成2步：

Standardization：首先对𝑚个𝑥进行 Standardization，得到 zero mean unit variance的分布𝑥̂ 。
scale and shift：然后再对𝑥̂ 进行scale and shift，缩放并平移到新的分布𝑦，具有新的均值𝛽方差𝛾。

其中，x i b x_i^b x i b 表示输入当前batch的𝑏 − t h 𝑏-th b −t h样本时该层𝑖 − t h 𝑖-th i −t h输入节点的值，𝑥 𝑖 𝑥_𝑖x i 为[ 𝑥 𝑖 1 , 𝑥 𝑖 2 , … , 𝑥 𝑖 𝑚 ] [𝑥^1_𝑖,𝑥^2_𝑖,…,𝑥^𝑚_𝑖][x i 1 ,x i 2 ,…,x i m ]构成的行向量，长度为batch size 𝑚 𝑚m，Font metrics not found for font: .和Font metrics not found for font: .为该行的均值和标准差，Font metrics not found for font: .为防止除零引入的极小量（可忽略），Font metrics not found for font: .和Font metrics not found for font: .为该行的scale和shift参数，可知

Font metrics not found for font: .和Font metrics not found for font: .为当前行的统计量，不可学习。
Font metrics not found for font: .和Font metrics not found for font: .为待学习的scale和shift参数，用于控制𝑦 𝑖 𝑦_𝑖y i 的方差和均值。
BN层中，𝑥 𝑖 𝑥_𝑖x i 和𝑥 𝑗 𝑥_𝑗x j 之间不存在信息交流( 𝑖 ≠ 𝑗 ) (𝑖≠𝑗)(i =j )

为什么要有第2步 scale and shift 呢？
我们思考一个问题，在第1步中，减均值除方差得到的分布是正态分布，我们能否认为正态分布就是最好或最能体现我们训练样本的特征分布呢？不能，比如数据本身就很不对称（不符合正态分布），或者激活函数未必是对方差为1的数据最好的效果，比如Softmax激活函数， 在-1~1之间的函数的梯度不大， 那么非线性变换的作用就不能很好的体现，换言之就是，减均值除方差操作后可能会削弱网络的性能！针对该情况，在第一步Standardazation之后加入scale and shift，如下图所示，这才算完成真正的batch normalization。

BN的本质就是利用优化变一下方差大小和均值位置，并且保证新的分布还比较切合数据的真实分布，保证模型的非线性表达能力。BN的极端的情况就是这两个参数等于mini-batch的均值和方差，那么经过batch normalization之后的数据和输入完全一样，当然一般的情况是不同的。

; BN的作用

抑制梯度消失（主要作用）
通常在激活函数之前使用BN，如上图所示，左图中的点是没有经过任何处理的输入数据，曲线是sigmoid函数，此时数据在sigmoid梯度很小的区域，那么梯度更新就会很慢，甚至陷入长时间的停滞。减均值除方差后，数据就被移到中心区域如右图所示，对于大多数激活函数而言，这个区域的梯度都是最大的或者是有梯度的（比如ReLU），这可以看做是一种对抗梯度消失的有效手段。对于一层如此，如果对于每一层数据都那么做的话，数据的分布总是在随着变化敏感的区域，相当于不用考虑数据分布变化了，这样训练起来更有效率。
加速优化过程（主要作用）
可以使用更大的学习率，训练过程更加稳定，极大提高了训练速度。
减小了参数初始化带来的影响
可以将bias置为0，因为Batch Normalization的Standardization过程会移除直流分量，所以不再需要bias。
对权重初始化不再敏感，通常权重采样自0均值某方差的高斯分布，以往对高斯分布的方差设置十分重要，有了Batch Normalization后，对与同一个输出节点相连的权重进行放缩，其标准差Font metrics not found for font: .也会放缩同样的倍数，相除抵消。
对权重的尺度不再敏感，理由同上，尺度统一由𝛾参数控制，在训练中决定。

4、具有一定的正则化作用（意外作用，有的实验证明并无此作用）

Batch Normalization具有某种正则作用，不需要太依赖dropout，L1，L2等正则化方式，减少过拟合。

BN每次的mini-batch的数据都不一样，而每次的mini-batch的数据都会对 moving mean和 moving variance产生作用，可以认为是引入了噪声，这就可以认为是进行了 data augmentation，而 data augmentation被认为是防止过拟合的一种方法。因此，可以认为用 BN可以防止过拟合。

BatchNorm和LayerNorm的区别

区别：BatchNorm是对batch内不同样本的同一特征进行归一化，LayerNorm是对同一样本的不同特征进行归一化。

举个栗子：

假设现在有一个二维矩阵(3×4)，行对应batch，列对应特征（行数对应batch size，列数对应特征维度）

import numpy as np
a=np.array([
        [-0.66676328, -0.95822262,  1.2951657 ,  0.67924618],
        [-0.46616455, -0.39398589,  1.95926177,  2.36355916],
        [-0.39897415,  0.80353481, -1.46488175,  0.55339737]])

BatchNorm就是对这个二维矩阵的每一列做归一化，layernorm是对每一行做归一化。

BatchNorm:

bu = np.mean(a, axis=0)
bs = np.std(a, axis=0)
bn_a=(a-bu)/bs

output:
bu = [-0.51063399 -0.18289123  0.59651524  1.19873424]
bs = [0.11375677 0.7345602  1.48262696 0.82525645]
bn_a: [[-1.37248351 -1.05550422  0.47122471 -0.62948682]
 [ 0.39091691 -0.28737557  0.91914323  1.41147025]
 [ 0.9815666   1.34287979 -1.39036794 -0.78198343]]

LayerNorm:

lu = np.mean(a, axis=1)
ls = np.std(a, axis=1)
ls_a = (a-lu[...,None])/ls[...,None]

lu = [ 0.0873565   0.86566762 -0.12673093]
ls = [0.93154023 1.30385305 0.893411  ]
ls_a = [[-0.80954075 -1.12241971  1.29657224  0.63538822]
 [-1.0214588  -0.96610083  0.83874034  1.14881929]
 [-0.30472338  1.04125172 -1.49779981  0.76127147]]

BatchNorm要求batch内所有样本的特征要等长，且所有样本同一维特征含义要保持一致，所以更适合处理图片，而不适合处理变长数据，比如nlp里不同长度的句子。

LayerNorm则只在同一样本内计算该样本所有特征的均值方差，所以可以处理变长样本，而且不受batch中其他数据的影响。

BatchNorm可以不同的特征归一化，消除特征量纲，并且保留样本间的差异。

LayerNorm可以将样本归一化，并且保持特征之间的差异性。

参考链接

https://www.cnblogs.com/shine-lee/p/11989612.html

https://blog.csdn.net/qq_35290785/article/details/89322289

https://www.zhihu.com/question/275788133/answer/384198714

Original: https://blog.csdn.net/qq_40924873/article/details/124578485
Author: 咻咻咻哈
Title: Batch Normalization的原理和作用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/618743/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【语音识别入门】特征提取（Python完整代码）

1、数字信号处理基础 1.1数字信号处理基础科学和工程中遇到的信号大多是连续的模拟信号，如电压随时间的变化、一天的温度变化等，而计算机智能地处理离散信号，因此必须对这些连续的模拟…

人工智能 2023年5月25日
0064
一看就会的Pandas文本数据处理

大家好，我是才哥。日常工作中我们经常接触到一些文本类信息，需要从文本中解析出数据信息，然后再进行数据分析操作。而对文本类信息进行解析是一件比较头秃的事情，好巧， Pandas刚…

人工智能 2023年7月9日
0072
高光谱目标检测论文学习（6）—— Bayesian Constrained Energy Minimization for Hyperspectral Target Detection

前言之前我们我们学习了HCEM和ECEM两种CEM的改进方法，这两种方法的相同点是都考虑了实际情况，加入了非线性检测的部分，从而提升了检测性能，不同的是一个主要是采用分层迭代的思…

人工智能 2023年7月10日
0068
Keras深度学习实战（1）——神经网络基础与模型训练过程详解

Keras深度学习实战（1）——神经网络基础与模型训练过程详解 * – 0. 前言 – 1. 神经网络基础 – + 1.1 简单神经网络的架构 …

人工智能 2023年6月16日
0060
pyinstaller打包exe(详细教程)

✅作者简介：大家好我是hacker707,大家可以叫我hacker，新星计划第三季python赛道Top1🏆📃个人主页：hacker707的csdn博客🔥系列专栏：python💬推…

人工智能 2023年7月3日
00130
Google Earth Engine——PRISM日数据集和月数据集是美国本土的网格化气候数据集，由俄勒冈州立大学的PRISM气候小组制作。网格是使用PRISM（独立坡度模型的参数-海拔回归）开发的

The PRISM daily and monthly datasets are gridded climate datasets for the conterminous Uni…

人工智能 2023年6月18日
00110
YOLOv5实战垃圾分类目标检测

使用YOLOv5完成垃圾分类的目标检测课程链接：https://edu.csdn.net/course/detail/35284 垃圾分类是一项利国利民的民生工程，需要全社会的共…

人工智能 2023年7月2日
0083
opencv图像仿射变换，cv2.warpAffine

目录仿射变换原理介绍 cv2.warpAffine函数介绍代码实例仿射变换原理介绍仿射变换，又称仿射映射，是指在几何中，一个向量空间进行一次线性变换并接上一个平移，变换为…

人工智能 2023年6月13日
00103
【模式识别】SVM实现人脸表情分类

import os import numpy as np import cv2 import matplotlib.pyplot as plt import seaborn fro…

人工智能 2023年7月1日
00100
Mel频率倒谱系数-MFCC

MFCC：Mel频率倒谱系数的缩写。目的：模拟人耳对不同频率语音的感知 Mel频率和Hz频率的关系人类对不同频率语音有不同的感知能力: 1kHz以下，与频率成线性关系。 1kH…

人工智能 2023年5月25日
0074
CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面8–PJSIP的环境NAT设置

CentOS7和CentOS8 Asterisk 20.0.0 简单图形化界面8–PJSIP的环境NAT设置 1、NAT设置 2、PJSIP 后台配置文件参考图形界面…

人工智能 2023年6月29日
0083
Pytorch中inplace操作

文章目录前言 Inplace操作概述 inplace操作的优缺点常见的inplace操作总结参考链接前言之前在写训练代码时，遇到了inplace operation导致…

人工智能 2023年7月23日
0078
web前端期末大作业——餐品后台管理系统(html+css+javascript)

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年7月29日
0092
[深度学习] fast-reid入门教程

fast-reid入门教程 ReID，全拼为Re-identification，目的是利用各种智能算法在图像数据库中找到与要搜索的目标相似的对象。ReID是图像检索的一个子任务，本…

人工智能 2023年7月26日
00116
安全帽检测，工地安全帽检测源码

安全帽检测，工地安全帽检测源码可以识别是否带了安全帽，用于工地安全监测，保障工人安全。代码基于yolo v4，训练了8000张左右图片（图片由网上爬取并打好标签），有数据集，包括图…

人工智能 2023年7月10日
0076
DQN,DDPG,SAC,PPO算法在turtlebot3上的仿真实验

PPO算法在turtlebot3上的仿真实验 ROS学习书籍：https://github.com/ncnynl/books ROS一条龙学习：https://github.com…

人工智能 2023年6月10日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31