深入理解NLP中LayerNorm的原理以及LN的代码详解

2023年5月31日上午4:56 • 人工智能 • 阅读 90

在介绍LayerNorm之前，我们先来思考一下，为什么NLP中要引入LayerNorm？

如果你学过一点深度学习，那么应该多多少少听过BatchNorm这个东西。BN简单来说就是对一批样本按照每个特征维度进行归一化。BN具体细节请看我的另一篇博客：深入理解BatchNorm的原理

以下图为例演示下BatchNorm的过程，我们会对R个样本的”成绩”这个特征维度做归一化。

但在NLP领域，每个样本通常是一个句子，而句子中包含若干个单词。这时如果使用BN去做过归一化通常效果会很差。

那有没有更好的归一化方法呢？

有的，我们今天就来看一看NLP中常用的归一化操作：LayerNorm

; LayerNorm原理

在NLP中，大多数情况下大家都是用LN（LayerNorm）而不是BN（BatchNorm）。最直接的原因是BN在NLP中效果很差，所以一般不用。

论文题目：Layer Normalization
论文链接：https://arxiv.org/abs/1607.06450

官方文档：torch.nn.LayerNorm
torch.nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)

Input:( N , ∗ ) (N, *)(N ,∗)
Output:( N , ∗ ) (N, *)(N ,∗)(same shape as input)

LayerNorm中没有batch的概念，所以不会像BatchNorm那样跟踪统计全局的均值方差，因此train()和eval()对LayerNorm没有影响。

; 说明：nn.LayerNorm与nn.BatchNorm用法上有很大的差异

nn.BatchNorm2d(num_features)中的 num_features一般是输入数据的第2维(从1开始数）， BatchNorm中weight和bias与num_features一致。
nn.LayerNorm(normalized_shape)中的 normalized_shape是最后的几维， LayerNorm中weight和bias的shape就是传入的normalized_shape。

在取平均值和方差的时候两者也有差异：

BN是把 除了轴num_features外的所有轴的元素放在一起，取平均值和方差的，然后对每个元素进行归一化，最后再乘以对应的γ \gamma γ和β \beta β（共享）。 BN共有num_features个mean和var，（假设输入数据的维度为(N,num_features, H, W））。
而LN是把 normalized_shape这几个轴的元素都放在一起，取平均值和方差的，然后对每个元素进行归一化，最后再乘以对应的γ \gamma γ和β \beta β（ 每个元素不同）。 LN共有N1*N2个mean和var（假设输入数据的维度为(N1,N2,normalized_shape），normalized_shape表示多个维度）

示例1：NLP中的LayerNorm（常用）

NLP的输入一般是(batch, sentence_length, embedding_dim)，则LayerNorm层有embedding_dim个参数γ \gamma γ和β \beta β。也就是对于输入的单词序列，LN是对一个单词的embedding向量进行归一化的

import torch
import torch.nn as nn

batch, sentence_length, embedding_dim = 20, 5, 10
inputs = torch.randn(batch, sentence_length, embedding_dim)
layer_norm = nn.LayerNorm(embedding_dim)

print("LayerNorm只有参数gamma和beta，没有统计量")
print(layer_norm.state_dict().keys())
print("参数gamma shape: ", layer_norm.state_dict()['weight'].shape)
print("参数beta shape: ", layer_norm.state_dict()['bias'].shape)
print("输入：", inputs.shape)
print("输出：", layer_norm(inputs).shape)

输出：

LayerNorm&#x53EA;&#x6709;&#x53C2;&#x6570;gamma&#x548C;beta&#xFF0C;&#x6CA1;&#x6709;&#x7EDF;&#x8BA1;&#x91CF;
odict_keys(['weight', 'bias'])
&#x53C2;&#x6570;gamma shape:  torch.Size([10])
&#x53C2;&#x6570;beta shape:  torch.Size([10])
&#x8F93;&#x5165;&#xFF1A; torch.Size([20, 5, 10])
&#x8F93;&#x51FA;&#xFF1A; torch.Size([20, 5, 10])

图解：🤩Layer Norm到底是怎么对单词归一化的？

（有错误）下图Layer Normalization计算过程（来自猛猿），乍一看好像是在描述LayerNorm，但是对应到NLP中的数据，就不太正确了，所以建议结合我上面的图去理解。

; 思考题1：为什么Layer Norm是对每个单词的Embedding做归一化？

看到这，可能很多人会有疑问了，为什么Layer Norm是对每个单词的embedding进行归一化，而不是对这个序列的所有单词embedding向量的相同维度进行归一化呢？

我一开始也是觉得应该对所有单词embedding向量归一化，但后来发现pytorch官方实现的LayerNorm并不是这样实现的，而是对每个单词的embedding进行了归一化。

后来，我想明白了，因为每个序列（每个样本）的单词个数不一样，但在代码实现的时候会进行padding，比如一个序列原始单词数为30个，另一个序列原始单词数是8，然后你统一padding成了30个单词，那如果按照相同维度，进行归一化，norm的信息就会被无意义的padding的embedding冲淡的！这显然是不合理的。

思考题2：为什么BN训练和测试时有区别，而LN没区别？

BatchNorm的统计量是一个batch算出来的，在线测试时，不太可能累计一个batch资料后再进行测试的。所以在训练的时候要记录统计量running mean和running var，作为预测时的均值和方差。详见博客：深入理解BatchNorm的原理

而LayerNorm训练和测试的时候不需要model.train()和model.eval()，是因为它只针对一个样本，不是针对一个batch，所以LayerNorm只有参数gamma和beta，没有统计量，因此LN训练和预测没有区别。

Transformer模型中的LayerNorm


class PoswiseFeedForwardNet(nn.Module):
    def __init__(self):
        super(PoswiseFeedForwardNet, self).__init__()
        self.fc = nn.Sequential(
            nn.Linear(d_model, d_ff, bias=False),
            nn.ReLU(),
            nn.Linear(d_ff, d_model, bias=False)
        )

    def forward(self, inputs):
"""
        inputs: [batch_size, seq_len, d_model]
"""

        residual = inputs
        output = self.fc(inputs)

        return nn.LayerNorm(d_model).to(device)(output + residual)

示例2：CV中LayerNorm的应用（不常用）

import torch
import torch.nn as nn

print("===== Image Example =====")
N, C, H, W = 20, 5, 10, 10
inputs = torch.randn(N, C, H, W)

layer_norm = nn.LayerNorm([C, H, W])
print("LayerNorm只有参数gamma和beta，没有统计量")
print(layer_norm.state_dict().keys())
print("参数gamma shape: ", layer_norm.state_dict()['weight'].shape)
print("参数beta shape: ", layer_norm.state_dict()['bias'].shape)
print("输入：", inputs.shape)
print("输出：", layer_norm(inputs).shape)

输出：

===== Image Example =====
LayerNorm&#x53EA;&#x6709;&#x53C2;&#x6570;gamma&#x548C;beta&#xFF0C;&#x6CA1;&#x6709;&#x7EDF;&#x8BA1;&#x91CF;
odict_keys(['weight', 'bias'])
&#x53C2;&#x6570;gamma shape:  torch.Size([5, 10, 10])
&#x53C2;&#x6570;beta shape:  torch.Size([5, 10, 10])
&#x8F93;&#x5165;&#xFF1A; torch.Size([20, 5, 10, 10])
&#x8F93;&#x51FA;&#xFF1A; torch.Size([20, 5, 10, 10])

下面这个图C表示通道数，H,W表示高和宽，由于可视化的原因，下图把H,W放在一起了，实际上像下图橙色形状是一个特征图（某个通道下的H*W）

显然LN求mean和var的时候是把整个蓝色元素都放在一起求的，然后每个元素都用这个mean和var进行归一化，不过这里每个元素对应的γ \gamma γ和β \beta β是不同的，因为γ \gamma γ和β \beta β也有C ∗ H ∗ W CHW C ∗H ∗W个。

附：BN、LN、IN、GN的区别

神经网络中有很多归一化的算法：Batch Normalization (BN)、Layer Normalization (LN)、Instance Normalization (IN)、Group Normalization (GN)

他们的公式都是差不多的，就是 减去均值，除以标准差，再施以线性映射。（只不过在对哪些维度求均值、方差，以及参数γ \gamma γ和β \beta β怎么对应有差异）

下图来自何凯明的论文：https://arxiv.org/pdf/1803.08494.pdf

对于每一种Norm方法而言， 每个像蓝色这样的区域会计算出一个均值和方差，在这个蓝色区域内的元素都会用这个均值和方差进行归一化。至于线性映射时参数γ \gamma γ和β \beta β怎么对应不同Norm时有差异的，我前面提到过BN和LN在这点上的差异。

下面这个例子来自博客：BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm简介，我觉得举的例子很形象，就摘过来了。

计算机视觉(CV)领域的数据x x x一般是4维形式，如果把x ∈ R N × C × H × W x \in \mathbb{R}^{N \times C \times H \times W}x ∈R N ×C ×H ×W类比为一摞书，这摞书总共有 N 本，每本有 C 页，每页有 H 行，每行 W 个字符。

计算均值时

BN 相当于把这些书按页码一一对应地加起来（例如：第1本书第36页，加第2本书第36页…），再除以每个页码下的字符总数：N×H×W，因此可以把 BN 看成求”平均书”的操作（注意这个”平均书”每页只有一个字）
LN 相当于把每一本书的所有字加起来，再除以这本书的字符总数：C×H×W，即求整本书的”平均字”
IN 相当于把一页书中所有字加起来，再除以该页的总字数：H×W，即求每页书的”平均字”
GN 相当于把一本 C 页的书平均分成 G 份，每份成为有 C/G 页的小册子，对这个 C/G 页的小册子，求每个小册子的”平均字”

计算方差同理

此外，还需要注意它们的映射参数γ和β的区别：对于 BN，IN，GN，其γ和β都是维度等于通道数 C 的向量。而对于 LN，其γ和β都是维度等于 normalized_shape 的矩阵。

最后，BN和IN 可以设置参数：momentum 和 track_running_stats来获得在全局数据上更准确的 running mean 和 running std。而 LN 和 GN 只能计算当前 batch 内数据的真实均值和标准差。

; 参考资料

[1] BatchNormalization、LayerNormalization、InstanceNorm、GroupNorm简介
[2] pytorch LayerNorm参数详解，计算过程
[3] PyTorch学习之归一化层（BatchNorm、LayerNorm、InstanceNorm、GroupNorm）
[4] BatchNorm详解：深入理解BatchNorm的原理、代码实现以及BN在CNN中的应用
[5] 深度神经网络架构【斯坦福21秋季：实用机器学习中文版】

写在最后

✨原创不易，还希望各位大佬支持一下 \textcolor{blue}{原创不易，还希望各位大佬支持一下}原创不易，还希望各位大佬支持一下

👍 点赞，你的认可是我创作的动力！ \textcolor{green}{点赞，你的认可是我创作的动力！}点赞，你的认可是我创作的动力！

⭐️ 收藏，你的青睐是我努力的方向！ \textcolor{green}{收藏，你的青睐是我努力的方向！}收藏，你的青睐是我努力的方向！

✏️ 评论，你的意见是我进步的财富！ \textcolor{green}{评论，你的意见是我进步的财富！}评论，你的意见是我进步的财富！

Original: https://blog.csdn.net/qq_43827595/article/details/121877901
Author: 白马金羁侠少年
Title: 深入理解NLP中LayerNorm的原理以及LN的代码详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548810/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

单目相机标定结果的评估——重投影误差与畸变校正

目录 1.重投影误差的概念 2.基于摄像机模型的重投影误差 3.畸变校正算法 3.1利用畸变模型正向求解 3.2利用畸变模型反向求解 1.重投影误差的概念在相机标定后，我们可以通…

人工智能 2023年5月26日
0095
基于强化学习的医疗诊断 Inquire and Diagnose: Neural Symptom Checking Ensemble using Deep Reinforcement Learning

将强化学习应用于医疗诊断的早期代表工作是发表在2016年人工智能领域顶级会议NIPS深度强化学习研讨会上的一篇工作（Inquire and Diagnose: Neural Sym…

人工智能 2023年7月13日
0061
opencv与vs的版本

想要使用vs2017最好是用opencv3.4.0版本以上 opencv2.4.13对应vc11 vc12，也就是vs2012和vs2013 opencv2.4.3对应vs2010…

人工智能 2023年7月19日
00121
在微信小程序中引用tensorflow.js坑向总结（一）

各种坑 * – 1. Error:No backend found in registry – 2. Error: This application has…

人工智能 2023年5月24日
0071
电机PID控制和闭环控制

电机PID控制和闭环控制 1 PID控制 1.1 位置式PID 理论公式： PID中，P用于提高响应速度，I用于减小静差、D用于抑制震荡。一般在进行PID参数整定时，首先设I和D的…

人工智能 2023年6月15日
0077
Ubuntu 20.04 深度学习开发环境安装教程完全版 [CUDA/TensorRT/Docker/OpenCV …]

Ubuntu 20.04 深度学习本地开发环境安装完全版本安装教程包括： Ubuntu 20.04 LTS Desktop 系统安装中文输入法 Python 开发环境 C++…

人工智能 2023年7月19日
0065
最全的基于COCO的Mask RCNN 模型（避坑指南）

这两天有点思路准备修改基于Mask RCNN网络模型，思路整理了一下，准备跑一下Mask RCNN，最起码先把base模型跑通再进行修改实验嘛，结果这个Mask RCNN模型的de…

人工智能 2023年7月10日
0071
【论文笔记】Visual Attention Network

论文论文题目：Visual Attention Network 论文地址：https://arxiv.org/abs/2202.09741 项目地址：Visual-Attenti…

人工智能 2023年5月28日
00105
python 常用第三方包镜像安装

conda添加常用镜像源 conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anacond…

人工智能 2023年5月23日
0090
【算法】跑ORB-SLAM2遇到的问题、解决方法、效果展示（环境：Ubuntu18.04+ROS melodic）

文章目录一、Pangolin库的介绍和安装问题 * 1、问题：Error: No preferred package managers from list [brew] foun…

人工智能 2023年6月10日
00134
【Python编程】transformers系列-1. Ubuntu上安装配置使用transformers4版本

【Python编程】transformers系列-1. Ubuntu上安装配置使用transformers4版本前言配置过程测试安装 * 测试代码测试报错前言 trans…

人工智能 2023年5月30日
00110
超分之EDSR

这篇文章是SRResnet的升级版——EDSR，其对网络结构进行了优化(去除了BN层)，省下来的空间可以用于提升模型的size来增强表现力。此外，作者提出了一种基于EDSR且适用于…

人工智能 2023年7月26日
0083
Knowledge-Driven Event Embedding for Stock Prediction笔记

Title Knowledge-driven event embedding for stock prediction (COLING 2016) Summary 沿用NTN（Ne…

人工智能 2023年6月10日
0069
数据库范式应用

学习数据库范式理论后，尽管已经知道范式能够帮助优化数据库设计，但是在使用中却发现，很难将这些理论方便的应用到实际中。本节主要梳理下如何在实际应用中使用范式。范式有很多种，参考关系数…

人工智能 2023年6月10日
0089
CrossAttention KBQA

《An End-to-End Model for Question Answering over Knowledge Base with Cross-Attention Combi…

人工智能 2023年6月17日
00112
preprocessing.StandardScaler()

sklearn.preprcoessing包下有很多数据预处理的方法，preprocessing模块中StandardScaler()类的fit()函数也可以用于数组的标准化。 c…

人工智能 2023年6月24日
00160

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深入理解NLP中LayerNorm的原理以及LN的代码详解

; LayerNorm原理

; 说明：nn.LayerNorm与nn.BatchNorm用法上有很大的差异

示例1：NLP中的LayerNorm（常用）

图解：🤩Layer Norm到底是怎么对单词归一化的？

; 思考题1：为什么Layer Norm是对每个单词的Embedding做归一化？

思考题2：为什么BN训练和测试时有区别，而LN没区别？

Transformer模型中的LayerNorm

示例2：CV中LayerNorm的应用（不常用）

大家都在看