ViT模型关联的Layer Normalization研读（一）初学者

2023年5月27日下午11:54 • 人工智能 • 阅读 68

巨佬请关闭！原文：

https://arxiv.org/abs/1607.06450

博主水平有限，本文目的是让大一大二有志于NLP领域学习的大学生们少走弯路，可当作学习笔记。今天在重新回顾ViT模型的基本结构的时候，发现很多知识盲区，这仅是其中一个。

Layer Normalization利用神经元输入的总和分布在一个小批量的训练案例上来计算均值和方差，然后用这些均值和方差来规范化每个训练案例上该神经元的总和输入。

批一归一化依赖于batch_size,RNN中（时间步骤不确定）不适用。

层归一化单一样本进行层归一化，与batch Normalization相同都设置有adaptive bias 和gain增益参数, 且在训练和测试中执行相同运算。RNN中每个时间点都可以进行Layer Normalization

作用：显著降低训练时间。

在前馈神经网络中，将输入x进行非线性映射 x->输出y。第l层时,al 记作输入。

Wl 为权重矩阵参数。

Bl 为偏置参数。

F() 为非线性映射。

目前，深度学习中改成的权重依赖于上一层的输出影响较大。Batch Normalization是通过将小的训练批次中的样本计算均值和方差进行归一化。

然而一个层的输出变化会导致总和输入到下一个层中相关变化（”covariate shift)。通过修正方差均值来减少协变的影响

神经元个数是H, 对于该层的每个ai求和最后除以H 得到均值ul。方差计算如第二个式子。

每一层神经元共享同一套神经元参数，参数即为均值和样本差。一层训练有很多个样本，每个样本是有不同归一化参数的。

Pytorch 中实现：

需要注意的是，Pytorch的LayerNorm类中有个normalized_shape参数，其用来指定Norm维度，但指定维度必须是最后一层维度。例如数据的shape是[3, 4, 5]，那么normalized_shape可以是[5]，也可以是[4,5] , [3,4,5]。但不能是[3] [3,4]

import torch
import torch.nn as nn

def layer_norm_process(feature: torch.Tensor, beta=0., gamma=1., eps=1e-5):
    var_mean = torch.var_mean(feature, dim=-1, unbiased=False)
    # &#x5747;&#x503C;
    mean = var_mean[1]
    # &#x65B9;&#x5DEE;
    var = var_mean[0]

    # layer norm process
    feature = (feature - mean[..., None]) / torch.sqrt(var[..., None] + eps)
    feature = feature * gamma + beta

    return feature

此处参考Layer Normalization解析_太阳花的小绿豆的博客-CSDN博客_layer normalization

Original: https://blog.csdn.net/m0_60920298/article/details/124262473
Author: 踏实钻研
Title: ViT模型关联的Layer Normalization研读（一）初学者

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528232/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

C++OpenCV系统学习（19）——轮廓周围绘制矩形和圆形框

1.轮廓周围绘制矩形和园 1.1绘制矩形和圆概述在图像外侧绘制最小矩形。基于RDP算法实现，目的是减少多边形轮廓的点数，加快运算效率，对图像轮廓点拟合多边形；该函数用另一条曲线或…

人工智能 2023年7月18日
0054
Python與資料分析 6-入門級競賽分析-房價预测

“Talk is cheap. Show me the code.”― Linus Torvalds 老子第41章上德若谷大白若辱大方無隅大器晚成大音希聲大…

人工智能 2023年6月11日
0062
TensorFlow2 实现神经风格迁移，DIY数字油画定制照片

TensorFlow2 实现神经风格迁移，DIY数字油画定制照片 * – 前言 – 神经风格迁移 – 使用VGG提取特征 – + 图…

人工智能 2023年7月13日
0063
知识图谱环境搭建过程

知识图谱环境搭建过程之前的系统环境中安装pyhanlp出现了MS c++库的依赖问题，再加上系统python版本为3.9，而项目所需算法python依赖为3.6，因此下载了Ana…

人工智能 2023年6月4日
0090
OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading “C:ProgramDataAnaconda3libsite-packagesto

完整报错OSError: [WinError 1455] 页面文件太小，无法完成操作。 Error loading “C:\ProgramData\Anaconda3\…

人工智能 2023年7月26日
0067
(深度学习社区发现综述)A Comprehensive Survey on Community Detection with Deep Learning

论文地址推荐直接看原文。译文深度学习分类框架，包括基于深度神经网络、深度非负矩阵分解和深度稀疏滤波的深度学习模型，并进一步将深度神经网络模型细分为卷积网络，图注意网络，生…

人工智能 2023年5月31日
0069
机器学习——K-means（聚类）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年5月31日
0084
NLP学习—21.自注意力机制（Self-Attention）与Transformer详解

文章目录 * – + 引言 + 一、Structure of Transformers + 二、Encoder Structure + 三、Self-attention…

人工智能 2023年5月28日
0090
美赛python学习d8–机器学习二：回归

回归简单线性回归数据预处理利用sklearn.linear_model中的LinearRegression类运用类创建regressor回归器对象利用训练集拟合回归器，也…

人工智能 2023年6月17日
0074
12月编程语言排行榜公布啦~

2022年迎来了最后一个月，我们可以看到，在这一年中编程语言起起伏伏，有的语言始终炙手可热，而有的语言却逐渐”没落”…… 日前，全…

人工智能 2023年7月29日
0035
opencv 图像直方图详解

文章目录理论基础一、opencv 函数支持calcHist() 代码示例理论基础直方图直方图是数值数据分布的精确图形表示。为了构建直方图，第一步是将值的范围分段，即将整个值…

人工智能 2023年5月26日
0076
C语言RPG迷宫游戏

算法与数据结构期中作业数据结构是由数据元素依据某种逻辑联系组织起来的结构。算法施加于数据结构，常用于解决复杂的计算问题。本次作业要求解决一个游戏走迷宫问题。游戏有以下设置: a)…

人工智能 2023年6月27日
0058
Matlab代码提示“svmtrain已删除请改用fitcsvm”，以及svmpredict没有返回结果label和精度accuracy的解决办法

Matlab在运行SVM相关函数时，如果显示”svmtrain已删除请改用fitcsvm”，则表示高版本的Matlab已经采用fitcsvm函数替代了旧版…

人工智能 2023年5月28日
0094
ffmpeg api实现aac语音文件转pcm

人工智能 2023年5月23日
0062
浅谈Opencv中的傅立叶变换

最近在搞图像处理的大作业，做了一个图像处理软件，在实现滤波时需要用到傅立叶变换把图像从时域转移到频率域，从而加速图像卷积。感觉网上相关资料颇少而且不够完整，并且为了防止以后自己忘记…

人工智能 2023年6月22日
0080
基于Paddle2.0的新冠X-射线图像分类

目录前言一、数据准备 * 1. 调库 2. 数据划分 3. 初始化数据集二、搭建模型 * 1.ResNet 2. DenseNet 3.MLP-mixer 三、模型训练四、…

人工智能 2023年7月1日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

ViT模型关联的Layer Normalization研读（一）初学者

大家都在看