transformer中的位置编码

2023年7月14日下午5:25 • 人工智能 • 阅读 60

背景：

各种transformer都含有一项关键的技术——位置编码（position encoding），它可以提升模型对位置信息的感知能力，弥补了Self Attention机制中位置信息的缺失；

绝对位置编码直接将位置的信息加入到现有的特征中。带有绝对位置编码的Self Attention 计算公式如式1所示：
a t t = ( X i + p i ) T W q T W k ( X j + p j ) (1) att = (X_i+p_i)^TW_q^TW_k(X_j +p_j)\tag1 a t t =(X i +p i )T W q T W k (X j +p j )(1 )
其中 X i , X j X_i, X_j X i ,X j 表示序列中 i , j i,j i ,j 两点的特征向量，W q W_q W q 表示 query 矩阵，W k W_k W k 表示 key 矩阵， p i , p j p_i, p_j p i ,p j 表示 i , j i, j i ,j 两点的绝对位置编码信息；
将式1展开得：
X i T W q T W k X j + p i T W q T W k X j + X i T W q T W k p j + p i T W q T W k p j (2) X_i^TW_q^TW_kX_j + p_i^TW_q^TW_kX_j + X_i^TW_q^TW_kp_j + p_i^TW_q^TW_kp_j \tag2 X i T W q T W k X j +p i T W q T W k X j +X i T W q T W k p j +p i T W q T W k p j (2 )
从式2中可以观察到，第1项是与位置无关的信息，第2、3项只与一个位置相关，第4项是与两个位置都相关的信息，目标是使得注意力机制中包含两个位置之间的相对位置信息，也就是让第满足式3：
p i T W q T W k p j = g ( i − j ) (4) p_i^TW_q^TW_kp_j = g(i-j)\tag4 p i T W q T W k p j =g (i −j )(4 )
其中 g ( i − j ) g(i-j)g (i −j ) 是一个只与两者相对位置相关的函数；W q T 、 W k W_q^T、W_k W q T 、W k 是可学习的参数，不妨将问题简化为如何构造函数 g ′ ( i − j ) = p i T p j g^\prime(i-j) = p_i^Tp_j g ′(i −j )=p i T p j ,也就是 g g g 只与相对位置有关，而与 i 、 j i、j i 、j 具体的数值无关；由初等数学三角函数可知：
c o s ( θ − φ ) = cos ⁡ θ cos ⁡ φ + sin ⁡ θ sin ⁡ φ (5) cos(\theta-\varphi) = \cos \theta \cos \varphi+\sin \theta \sin \varphi\tag5 c o s (θ−φ)=cos θcos φ+sin θsin φ(5 )
不妨令:
p i = ( c o s θ i s i n θ i ) p j = ( c o s θ j s i n θ j ) p_i = \binom{cos \theta_i}{sin\theta_i}\ \ \p_j = \binom{cos \theta_j}{sin\theta_j}p i =(s i n θi c o s θi )p j =(s i n θj c o s θj )
就有：
c o s ( θ i − θ j ) = ( c o s θ i , s i n θ i ) ( c o s θ j s i n θ j ) (6) cos(\theta_i-\theta_j) = (cos \theta_i, \ sin\theta_i)\binom{cos \theta_j}{sin\theta_j}\tag6 c o s (θi −θj )=(c o s θi ,s i n θi )(s i n θj c o s θj )(6 )
若想让 c o s ( θ i − θ j ) cos(\theta_i-\theta_j)c o s (θi −θj ) 只与 i − j i-j i −j 有关，则只需有 θ k = k θ 0 \theta_k=k\theta_0 θk =k θ0 ，则有c o s ( θ i − θ j ) = c o s [ ( i − j ) θ 0 ] (7) cos(\theta_i-\theta_j) = cos[(i-j)\theta_0]\tag7 c o s (θi −θj )=c o s (i −j )θ0
所以transformer论文中使用cos与sin函数来对位置编码，是有一定的意义的；
P E ( p o s , 2 i ) = sin ⁡ ( p o s / 1000 0 2 i / d model ) P E ( pos , 2 i + 1 ) = cos ⁡ ( p o s / 1000 0 2 i / d model ) (8) \begin{aligned} P E_{(p o s, 2 i)} &=\sin \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \ P E_{(\text {pos }, 2 i+1)} &=\cos \left(p o s / 10000^{2 i / d_{\text {model }}}\right) \end{aligned}\tag8 P E (p o s ,2 i )P E (pos ,2 i +1 )=sin (p o s /1 0 0 0 0 2 i /d model )=cos (p o s /1 0 0 0 0 2 i /d model )(8 )
其中 pos 为序列中（句子）的位置，d m o d e l d_{model}d m o d e l 为位置信息编码的特征向量的长度，i 表示位置信息编码特征向量的第 i 个元素，编码向量中的奇数位用cos来编码，偶数位用sin来编码；

Original: https://blog.csdn.net/weixin_40957452/article/details/124116198
Author: CV科研随想录
Title: transformer中的位置编码

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/692521/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

创建自己的图像分割数据集并利用Unet实现图像分割（pytorch）

一、配置lanelme数据集标注工具 1.安装labelme labelme安装参考链接，从这个链接中选取你要安装的labelme版本，按照教程操作即可。注：在安装时候可能出现一…

人工智能 2023年6月18日
00174
【目标检测05】yolo v2 笔记

【参考资料】【1】https://zhuanlan.zhihu.com/p/34879333【2】https://zhuanlan.zhihu.com/p/63024247【3】h…

人工智能 2023年7月10日
0065
sklearn分类指标函数sklearn.metrics.classification_repor的用法详解（含源码）

sklearn.metrics.classification_report * – 调整方法及参数： – 参数说明 – + parameters…

人工智能 2023年7月17日
0054
【目标跟踪】|OSTrack

ECCV 2022 paperJoint Feature Learning and Relation Modeling for Tracking: A One-Stream Fra…

人工智能 2023年6月17日
0088
iNeuOS工业互联网操作系统，设备运维业务和“低代码”表单开发工具

目录概述… 2 设备运维业务… 3 “低代码”表单开发工具… 6 概述 iNeuOS工业互联网操作系统增加了设备运维…

人工智能 2023年6月4日
00112
（超详细）Ubuntu18.04下安装及卸载opencv+opencv_contrib

为了做毕设，我已经被这个东西折磨了很多天了，现在真的悟了。写下人生的第一篇博客，希望能够帮助大家。说明： 1.本教程适用c++和python环境 2.opencv和opencv_…

人工智能 2023年5月26日
0084
tf.argmax()的详细用法

tf.argmax(data, axis=None)用tensorflow 做 mnist分类时，用到这个接口，于是就研究了下这个接口的用法：如果是一维数组呢？ data = t…

人工智能 2023年5月23日
0070
PyTorch版本更新后无法调用GPU显卡的原因及解决办法

Index 目录索引问题剖析解决方法参考问题剖析使用 PyTorch在网络模型训练过程中，如果更新了 PyTorch的版本（例如由 1.7.0更新为 1.8.1），则可能…

人工智能 2023年6月17日
0077
【项目实战】Python实现循环神经网络RNN-LSTM回归模型项目实战(股票价格预测)

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景金融一直是现代社会非常热门的一个研究方向…

人工智能 2023年6月18日
00123
T5模型简介

引言本文我们先学习一个T5(Text- To- Text Transfer Transformer)模型的基本概念，最后应用到文本摘要任务上作为实战。 T5模型文本到文本Tra…

人工智能 2023年5月27日
0088
人工智能与机器学习——人脸表情识别

目录一、人脸特征提取的步骤 ①数据集 ②定义 ③检测笑脸的过程二、笑脸数据集训练三、笑脸识别四、参考文章一、人脸特征提取的步骤 ①数据集这里我们使用GENKI-4K数据…

人工智能 2023年7月19日
0059
数字图像处理——最大类间方差法（OTSU）图像阈值分割实例

数字图像处理——最大类间方差法（OTSU）图像阈值分割实例数字图像处理——最大类间方差法（OTSU）图像阈值分割实例图像阈值分割是指通过以某个确定的图像灰度值（灰度级）将图像分…

人工智能 2023年6月17日
0098
2022亚太C题详细思路

2022年亚太今日已经正式开赛，为了帮助大家更好的选题建模，这里首先对ABC三道题目进行浅要评析，以方便大家更好的择题。同时相关资料也会后续进行补充。预计明日公布各题统计选题人数以…

人工智能 2023年7月31日
0073
这 20 个Pandas 函数, 你可能没试过

Pandas 是 pytho 里主流的数据分析库。Pandas 之所以如此普遍，是因为集功能性、灵活性于一体。为了简化数据分析过程, Pandas 其实内置了许多功能和方法. 本文…

人工智能 2023年7月8日
0063
【kaggle竞赛】Ames房价预测与回归问题（上）

2021.9.17 自学机器学习的日子，在图书馆摸了本《大数据与机器学习经典案例》，记录一下。第一章，讲讲房价预测和回归问题。本文用到的是爱荷华州艾姆斯市房价数据集，由杜…

人工智能 2023年6月19日
0073
统计学习导论（ISLR）（四）：分类算法

统计学习导论(ISLR) 🌸个人主页：JoJo的数据分析历险记 📝个人介绍：小编大四统计在读，目前保研到统计学top3高校继续攻读统计研究生 💌如果文章对你有帮助，欢迎 *关注、…

人工智能 2023年7月2日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

transformer中的位置编码

大家都在看