Layer Normalization解析

2023年6月15日上午6:34 • 人工智能 • 阅读 88

原论文名称：Layer Normalization
原论文地址： https://arxiv.org/abs/1607.06450

之前有讲过Batch Normalization的原理，链接，今天来简单讲讲Layer Normalization。Layer Normalization是针对自然语言处理领域提出的，例如像RNN循环神经网络。为什么不使用直接BN呢，因为在RNN这类时序网络中，时序的长度并不是一个定值（网络深度不一定相同），比如每句话的长短都不一定相同，所有很难去使用BN，所以作者提出了Layer Normalization（注意，在图像处理领域中BN比LN是更有效的，但现在很多人将自然语言领域的模型用来处理图像，比如Vision Transformer，此时还是会涉及到LN）。

具体论文就不讲了，我们直接看下Pytorch官方给的关于LayerNorm的简单介绍。只看公式的话感觉和BN没什么区别，都是减均值E ( x ) E(x)E (x )，除以标准差V a r ( x ) + ϵ \sqrt{Var(x) + \epsilon }V a r (x )+ϵ 其中ϵ \epsilon ϵ是一个非常小的量（默认1 0 − 5 10^{-5}1 0 −5），是为了防止分母为零。同样也有两个可训练的参数β , γ \beta, \gamma β,γ。不同的是，BN是对一个batch数据的每个channel进行Norm处理，但LN是对单个数据的指定维度进行Norm处理与batch无关（后面有示例）。而且在BN中训练时是需要累计moving_mean和moving_var两个变量的（所以BN中有4个参数m o v i n g _ m e a n , m o v i n g _ v a r , β , γ moving_mean, moving_var, \beta, \gamma m o v i n g _m e a n ,m o v i n g _v a r ,β,γ），但LN不需要累计只有β , γ \beta, \gamma β,γ两个参数。

在Pytorch的LayerNorm类中有个normalized_shape参数，可以指定你要Norm的维度（注意，函数说明中 the last certain number of dimensions，指定的维度必须是从最后一维开始）。比如我们的数据的shape是[4, 2, 3]，那么normalized_shape可以是[3]（最后一维上进行Norm处理），也可以是[2, 3]（Norm最后两个维度），也可以是[4, 2, 3]（对整个维度进行Norm），但不能是[2]或者[4, 2]，否则会报以下错误（以normalized_shape=[2]为例）：

RuntimeError:
Given normalized_shape=[2],
expected input with shape [*, 2],
but got input of size[4, 2, 3]

提示我们传入的normalized_shape=[2]，接着系统根据我们传入的normalized_shape推理出期待的输入数据shape应该为[*, 2]即最后的一个维度大小应该是2，但我们实际传入的数据shape是[4, 2, 3]所以报错了。

接着，我们再来看个示例。下面是我写的测试代码，分别使用官方的LN方法和自己实现的LN方法进行比较，看自己理解的是否正确。

import torch
import torch.nn as nn

def layer_norm_process(feature: torch.Tensor, beta=0., gamma=1., eps=1e-5):
    var_mean = torch.var_mean(feature, dim=-1, unbiased=False)

    mean = var_mean[1]

    var = var_mean[0]

    feature = (feature - mean[..., None]) / torch.sqrt(var[..., None] + eps)
    feature = feature * gamma + beta

    return feature

def main():
    t = torch.rand(4, 2, 3)
    print(t)

    norm = nn.LayerNorm(normalized_shape=t.shape[-1], eps=1e-5)

    t1 = norm(t)

    t2 = layer_norm_process(t, eps=1e-5)
    print("t1:\n", t1)
    print("t2:\n", t2)

if __name__ == '__main__':
    main()

首先使用torch.rand方法随机生成一个shape为[4, 2, 3]的变量t:

接着使用官方的方法创建一个LN层，这里 t.shape[-1]指的是数据的最后一个维度3即只对最后一个维度进行Norm处理，如上图中用红色框框选出的每组数据：

&#x4EC5;&#x5728;&#x6700;&#x540E;&#x4E00;&#x4E2A;&#x7EF4;&#x5EA6;&#x4E0A;&#x505A;norm&#x5904;&#x7406;
norm = nn.LayerNorm(normalized_shape=t.shape[-1], eps=1e-5)

然后将数据传入实例化好的norm类得到以下结果：

 tensor([[[-1.2758,  1.1659,  0.1099],
         [ 0.6532, -1.4123,  0.7591]],

        [[ 1.1400,  0.1522, -1.2922],
         [ 1.0942, -1.3229,  0.2287]],

        [[-0.9757, -0.3983,  1.3741],
         [ 1.4134, -0.7379, -0.6755]],

        [[ 0.1563,  1.1389, -1.2951],
         [-1.2341,  0.0203,  1.2138]]], grad_fn=<nativelayernormbackward>)
</nativelayernormbackward>

然后调用自己实现的LayerNorm方法（注意，β \beta β最初为0，γ \gamma γ最初为1，后面通过训练慢慢学习调整的）得到如下结果：

 tensor([[[-1.2758,  1.1659,  0.1099],
         [ 0.6532, -1.4123,  0.7591]],

        [[ 1.1400,  0.1522, -1.2922],
         [ 1.0942, -1.3229,  0.2287]],

        [[-0.9757, -0.3983,  1.3741],
         [ 1.4134, -0.7379, -0.6755]],

        [[ 0.1563,  1.1389, -1.2951],
         [-1.2341,  0.0203,  1.2138]]])

很明显和官方得到的结果是一模一样的，这也说明了自己的理解是正确的。

Original: https://blog.csdn.net/qq_37541097/article/details/117653177
Author: 太阳花的小绿豆
Title: Layer Normalization解析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613970/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

智科模式识别期末大课设：多种方法对数据集进行手写数字识别（数据集：MINIST）

0结课作业内容（1）程序编写及报告。请大家下载70000个样本的MNIST数据集（”手写体数字70000.zip”，28*28像素），60000个用于训练，…

人工智能 2023年5月31日
0058
极限学习机(Extreme Learning Machine, ELM)的训练与预测matlab仿真

1.算法概述 2.仿真效果 3.MATLAB仿真源码极限学习机（ ELM）是当前一类非常热门的机器学习算法，被用来训练单隐层前馈神经网络（ SLFN Original: http…

人工智能 2023年7月31日
0043
深度学习之concatenate和elementwise操作（二）

一、深度学习里面的element-wise特征相乘和相加到底有什么区别？很多深度学习模型在设计时，中间特征在分支处理后，然后可能会采用element-wise相乘或相加，不知道这…

人工智能 2023年6月24日
0062
目标检测FCOS的初步理解

FCOS FCOS是一阶段anchor free目标检测算法，其主要的卖点为无锚。通过回归特征图上每个位置距离目标框的上下左右距离来实现目标检测。如果一个位置落在了多个目标框内，文…

人工智能 2023年5月26日
0063
python文件处理_批量读取txt文件转换为dataframe并存入csv

批量做Text文本写入csv时，首先把text文件读入dataframe，然后添加左列text路径名为文件名，右列为文章内容。 –– coding:utf-…

人工智能 2023年7月7日
0065
好心情：别在该躺平的时候动脑子，10种方法让大脑高效休息

什么也不干，为什么还会感觉疲惫不堪？那是因为我们只让身体休息，而没让大脑”休息到位”。脑科学研究表明，一天中大脑消耗的能量，高达身体消耗能量总和的20%…

人工智能 2023年6月28日
0091
RCNN目标检测算法内容详解（依托论文讲解）

RCNN论文下载地址： https://arxiv.org/pdf/1311.2524.pdf 作为目标检测的开山鼻祖，对于RCNN的学习一定是有里程碑的意义的，RCNN的横空出世…

人工智能 2023年6月17日
0092
Go构建模式：GOPATH、vendor、Go Module

GOPATH默认路径是 $HOME/go。GOPATH构建模式下，编译器会在GOPATH路径下搜索第三方模块，不关心第三方包版本。为了可重构，引入了vendor机制。通过环境变量…

人工智能 2023年6月27日
0066
移动端模型部署(ncnn,tflite,paddlelite等）

yolov5 移动端模型部署(ncnn,tflite,paddlelite等）主要介绍ncnn 部署paddle lite 部署文章目录各个框架的介绍框架的选择三大模型的…

人工智能 2023年6月17日
0087
python–飞机大战

项目名称：python飞机大战编程语言：python用到关键知识：pygame模块，python基础，os文件读写，以及面向对象思想方法！实现功能：1：飞机的移动，发射子弹，手雷，…

人工智能 2023年7月31日
0071
神级编程网站，堪称程序员的充电站，我给你找好了不能错过

准备了几个网站，希望能帮助各位朋友。不多说直接来干货内容。刷面类网站 0x00 牛客网—面经和刷面试题牛客网作为国内内容超级丰富的 IT 题库，题库+面试+学习+求职+讨论+考…

人工智能 2023年6月21日
0093
【OpenCV C++ 线性滤波基础】

OpenCV C++线性滤波复习和总结文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档图像处理中，图像滤波是去除图像中不感兴趣的噪声，从而更好的去关注想要的图像内容。 …

人工智能 2023年6月20日
0077
【毕设】基于CycleGAN的风格迁移【一】环境搭建及运行代码

源代码地址：CycleGAN源码因为该篇内容包含Anaconda的环境管理及包的管理，可以选择参考：Anaconda安装+环境管理+包管理+实际演练例子（全网最详细）_MrRoo…

人工智能 2023年7月22日
0069
第七课 TensorFlow实现卷积神经网络

; TensorFlow实现卷积神经网络一本节课程介绍 1.1 知识点 1、卷积神经网络介绍；2、TensorFlow实践CNN网络；二课程内容 2.1 卷积神经网络基本介…

人工智能 2023年5月25日
0080
极客星球 | 职住地进阶：地块分类与分割方法

编者按：随着智能手机和信息通信技术的不断发展和普及，大规模的轨迹数据存储已经比较普遍，成为挖掘用户行为模式的重要来源，工作地和居住地是用户行为模式的重要表现，可用于辅助智能城市的…

人工智能 2023年7月3日
0066
【数据可视化应用】数据统计分析的显著性标注（附Python和R语言代码）

Python版本 Python-Seaborn 自定义函数绘制我们可以通过自定义绘图函数的方式在统计图表中添加显著性标注，这里我们直接使用Seaborn自带的iris数据集进行绘…

人工智能 2023年7月16日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Layer Normalization解析

大家都在看