nn.LayerNorm的实现及原理

2023年6月16日下午3:14 • 人工智能 • 阅读 127

LayerNorm

在transformer中一般采用LayerNorm，LayerNorm也是归一化的一种方法，与BatchNorm不同的是它是对每单个batch进行的归一化，而batchnorm是对所有batch一起进行归一化的

y = x − E ( x ) V a r ( x ) + ϵ ∗ γ + β y = \frac{x-E(x)}{\sqrt{Var(x)+\epsilon}}*\gamma+\beta y =V a r (x )+ϵx −E (x )∗γ+β

nn.LayerNorm(normalized_shape, eps=1e-05, elementwise_affine=True, device=None, dtype=None)

normalized_shape：归一化的维度，int（最后一维）list（list里面的维度）
eps：加在方差上的数字，避免分母为0
elementwise_affine：bool，True的话会有一个默认的affine参数

elementwise_affine就是公式中的γ \gamma γ和β \beta β，前者开始为1，后者为0，二者均可学习随着训练过程而变化

举例

假设我们的输入为(1, 3, 5, 5)的变量，并对其进行LayerNorm，一般来说有两种归一化的方式。如下图所示，左边为第一种归一化方法，对所有channel所有像素计算；右边为第二种归一化方法，对所有channel的每个像素分别计算

计算一个batch中所有channel中所有参数的均值和方差，然后进行归一化，即(3, 5, 5)
计算一个batch中所有channel中的每一个参数的均值和方差进行归一化，即(3, 1, 1)，计算25次

; 第一种

直接给出计算代码

注意：输入为(1, 3, 5, 5)，layernorm的normalized_shape为[3, 5, 5]，也就是说对后三维度进行归一化操作

from torch import nn
import numpy as np
import torch.nn as nn
from torchvision.transforms import Compose, ToTensor
import torch

def transform():
    return Compose([
        ToTensor(),
    ])

arr1 = np.arange(1,26).reshape(5, 5)
arr2 = np.arange(11, 36).reshape(5, 5)
arr3 = np.arange(31, 56).reshape(5, 5)
arr = np.dstack((arr1, arr2, arr3))
arr = np.reshape(arr,[5,5,3])
arr = arr.astype(np.float32)

arr = transform()(arr)

arr = arr.unsqueeze(0)

''' 直接使用nn.LayerNorm函数计算 '''
norm = nn.LayerNorm([3, 5, 5])
print(norm(arr))
''' 手动计算 '''
u = arr.mean()
s = (arr-u).pow(2).mean()
x = (arr-u)/torch.sqrt(s+1e-5)
print(x)
'''
tensor([[[[-1.7584, -1.6890, -1.6196, -1.5502, -1.4808],
          [-1.4114, -1.3420, -1.2725, -1.2031, -1.1337],
          [-1.0643, -0.9949, -0.9255, -0.8561, -0.7867],
          [-0.7173, -0.6478, -0.5784, -0.5090, -0.4396],
          [-0.3702, -0.3008, -0.2314, -0.1620, -0.0925]],
          ...

         [[ 0.3239,  0.3933,  0.4627,  0.5322,  0.6016],
          [ 0.6710,  0.7404,  0.8098,  0.8792,  0.9486],
          [ 1.0180,  1.0875,  1.1569,  1.2263,  1.2957],
          [ 1.3651,  1.4345,  1.5039,  1.5733,  1.6427],
          [ 1.7122,  1.7816,  1.8510,  1.9204,  1.9898]]]],
       grad_fn=)
tensor([[[[-1.7584, -1.6890, -1.6196, -1.5502, -1.4808],
          [-1.4114, -1.3420, -1.2725, -1.2031, -1.1337],
          [-1.0643, -0.9949, -0.9255, -0.8561, -0.7867],
          [-0.7173, -0.6478, -0.5784, -0.5090, -0.4396],
          [-0.3702, -0.3008, -0.2314, -0.1620, -0.0925]],
          ...

         [[ 0.3239,  0.3933,  0.4627,  0.5322,  0.6016],
          [ 0.6710,  0.7404,  0.8098,  0.8792,  0.9486],
          [ 1.0180,  1.0875,  1.1569,  1.2263,  1.2957],
          [ 1.3651,  1.4345,  1.5039,  1.5733,  1.6427],
          [ 1.7122,  1.7816,  1.8510,  1.9204,  1.9898]]]])
'''

第二种

直接给出计算代码

注意：我们的输入是(1, 3, 5, 5)，如果要完成第二种方法，我们layernorm只需要提供一个参数，即norm = nn.LayerNorm(3)，但是如果只提供一个参数，默认为对最后一维进行归一化，所以我们需要将输入进行变化，即变为(1, 5, 5, 3)。

特别的在transformer中我们的数据维度一般在最后一维，也就是(1, 5, 5, 3)的形式，所以可以直接用layernorm函数进行归一化，如果是普通的卷积层，形式为(1, 3, 5, 5)需要手动实现，下面分别实现了这两种方法

from torch import nn
import numpy as np
import torch.nn as nn
from torchvision.transforms import Compose, ToTensor
import torch

def transform():
    return Compose([
        ToTensor(),
    ])

''' 数据初始化 '''
arr1 = np.arange(1,26).reshape(5, 5)
arr2 = np.arange(11, 36).reshape(5, 5)
arr3 = np.arange(31, 56).reshape(5, 5)
arr = np.dstack((arr1, arr2, arr3))
arr = np.reshape(arr,[5,5,3])
arr = arr.astype(np.float32)
arr = transform()(arr)
arr = arr.unsqueeze(0)

''' [1, 3, 5, 5] -> [1, 5, 5, 3] '''
arr = arr.permute(0, 2, 3, 1).contiguous()
print(arr.size())

''' LayerNorm函数计算 '''
norm = nn.LayerNorm(3)
print(norm(arr))

''' [1, 5, 5, 3] -> [1, 3, 5, 5] '''
arr = arr.permute(0, 3, 1, 2)
print(arr.size())

''' 手动计算 '''

u = arr.mean(dim=1, keepdim=True)
s = (arr - u).pow(2)
s = s.mean(1, keepdim=True)
x = (arr - u) / torch.sqrt(s + 1e-6)
print(x)

weight = nn.Parameter(torch.ones(3))
bias = nn.Parameter(torch.zeros(3))
print(weight)
print(weight[:, None, None], weight[:, None, None].size())
x = weight[:, None, None]*x + bias[:, None, None]
'''
torch.Size([1, 5, 5, 3])
tensor([[[[-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363]],
          ...

         [[-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363],
          [-1.0690, -0.2673,  1.3363]]]], grad_fn=)
torch.Size([1, 3, 5, 5])
tensor([[[[-1.0690, -1.0690, -1.0690, -1.0690, -1.0690],
          [-1.0690, -1.0690, -1.0690, -1.0690, -1.0690],
          [-1.0690, -1.0690, -1.0690, -1.0690, -1.0690],
          [-1.0690, -1.0690, -1.0690, -1.0690, -1.0690],
          [-1.0690, -1.0690, -1.0690, -1.0690, -1.0690]],
          ...

         [[ 1.3363,  1.3363,  1.3363,  1.3363,  1.3363],
          [ 1.3363,  1.3363,  1.3363,  1.3363,  1.3363],
          [ 1.3363,  1.3363,  1.3363,  1.3363,  1.3363],
          [ 1.3363,  1.3363,  1.3363,  1.3363,  1.3363],
          [ 1.3363,  1.3363,  1.3363,  1.3363,  1.3363]]]])
'''

Original: https://blog.csdn.net/weixin_41978699/article/details/122778085
Author: harry_tea
Title: nn.LayerNorm的实现及原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624950/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Attention and transformer from nlp and application DIN

在阅读推荐系统的文章时，遇到了transformer 的概念以及attention的概念，对这部分不是很理解，现在对着方面做出一些总结以及一些知识点的记录。概念定义：有两个定长…

人工智能 2023年5月28日
0060
自动驾驶之多传感器融合实践（1）——激光雷达点云数据处理

Lidar Obstacle Detection一、最终效果代码地址：Github: https://github.com/williamhyin/SFND_Lidar_Obsta…

人工智能 2023年6月15日
00106
程序员最浪漫的表白方式，将情书写在她的照片里，Python简直太厉害啦~

人生苦短，我用Python 序言实现步骤 * – 1、准备工作 2、Pillow 介绍 3、实战演练序言这不光棍节快到了，表弟准备写一封情书给他的女神，想在光棍节…

人工智能 2023年6月26日
0088
SPANNER: Named Entity Re-/Recognition as Span Prediction

命名实体识别（在联合抽取中，命名实体识别是一个部分，也会影响到关系抽取的质量，对于命名实体识别，目前主要涉及在细粒度命名实体识别、嵌套、不连续命名实体识别等）相关的方法主要有两大类…

人工智能 2023年6月1日
0084
论文阅读 CVPR2022《Rethinking Semantic Segmentation：A Prototype View》

文中作者一直强调关于一张图片里的像素投射的embedding space的结构是缺乏关注的，这个思想在他去年的一项工作里就有涉及，他提出了一个insight的问题，如下图红字。 O…

人工智能 2023年6月23日
0074
pytorch中LSTM参数详解（一张图帮你更好的理解每一个参数）

对LSTM网络的理解对LSTM网络不理解的请看这篇博客，对新手比较友好，也很容易理解，只有理解了LSTM，才知道下面要讲的参数分别对应什么 LSTM参数列表 Pytorch中创建…

人工智能 2023年7月22日
0099
FPGA学习–RGB-LCD屏彩条显示实验

FPGA学习–RGB-LCD屏彩条显示实验 * – + RGB-LCD屏原理 + 程序设计参考正点原子视频 RGB-LCD屏原理 LCD 是一种液晶显示屏…

人工智能 2023年6月20日
00114
【程序人生】4年创作纪念日，不忘初心，继续前行

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

人工智能 2023年7月31日
0043
Data Mining:图聚类(Graph clustering)

Betweenness Centrality (from wikipedia) 在图论中，介数中心性（英語：Betweenness Centrality）是基于最短路径针对网络图…

人工智能 2023年5月31日
00108
Day04-GET和POST请求

一：小程序中网络请求的限制（只能请求HTTPS接口，接口的域名添加到信任列表中）二.配置request合法域名我的操作： 1> 2> 在微信小程序里面：三：发起G…

人工智能 2023年6月27日
0071
计算机视觉—— 相机标定

目录简介一、相机模型 1.坐标系 2.坐标系变化 3.相机畸变模型二、相机标定原理三、张正友黑白棋盘格标定 2.1.算法思想 2.2.求解内参和外参的积 2.3.求解内参矩…

人工智能 2023年6月23日
0068
Selenium被检测为爬虫，怎么屏蔽和绕过

Selenium 操作被屏蔽使用selenium自动化网页时，有一定的概率会被目标网站识别，一旦被检测到，目标网站会拦截该客户端做出的网页操作。比如淘宝和大众点评的登录页，当手…

人工智能 2023年7月4日
0079
OpenCV图像处理入门

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年7月4日
0048
L4自动驾驶中感知系统遇到的挑战及解决方案

导读：本次分享的大纲—— Perception Introduction Sensor Setup & Sensor Fusion Perception Onboard …

人工智能 2023年6月10日
0063
实现简单的中英互译的安卓App

开发工具是Android Studio，实现了一个中英互译的安卓app，调用科大讯飞的语音识别、语音合成api以及百度翻译api,需要科大讯飞的appid,以及百度翻译的appid…

人工智能 2023年5月25日
0087
Python 使用pandas库处理csv文件

Python数据分析系列第一章 csv文件处理进阶目录 Python数据分析系列一、pandas是什么？二、使用步骤 * 1.引入库 2.读入数据 3.数据获取和处理 &#…

人工智能 2023年7月8日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

nn.LayerNorm的实现及原理

LayerNorm

举例

; 第一种

第二种

大家都在看