Self-Attention：初步理解

2023年7月24日上午2:32 • 技术杂谈 • 阅读 64

Self-Attention 的基本结构与计算

Attention（注意力）实际上就是权重的另一种应用的称呼，其具体结构与初始输入的 content (\vec{x_{1}}, \vec{x_{2}}, \cdots, \vec{x_{n}} \in \mathcal{X}) 紧密相关。其中， (\vec{x_{1}}, \vec{x_{2}}, \cdots, \vec{x_{n}}) 为维度相同（设为 (d)，即 (\vec{x_{i}} \in \mathbb{R}^{d}) for (\forall 1 \leq i \leq n)）的向量。所谓 word embedding，实质是用低维的向量表示物体，但是，表示时需要注意，对于任意两种不同物体的 embedding，若两物体本身有着相似的属性（这个定义可以比较抽象，例如，绿巨人与钢铁侠、在地理上相近的两个物体、相似的声音等等都能称作具有某种相似的属性，具体需要看模型的任务和目的是什么），那么它们的 embedding 向量经过某种计算出来的结果，或 “距离” 需要很近。反之，如果两件物体风马牛不相及，或者在模型中我们极力希望将它们分开，那么它们的 embedding 相计算出的 “距离” 应当很远。

例如，在NLP任务中每个 (\vec{x_{i}}) 代表了一个 word embedding（原论文中每个word embedding 的维度 = 512，i.e., (d = 512)）。我们的实际任务是，对于每一个 (\vec{x_{i}})，分别计算其对应的 attention (A_{i})，具体计算方法如下：

对于每一个 word embedding (\vec{x_{i}} \in \mathbb{R}^{d})，分别计算

query：(\vec{q_{i}} = \vec{x_{i}} W^{Q} \in \mathbb{R}^{d})
key：(\vec{k_{i}} = \vec{x_{i}} W^{K} \in \mathbb{R}^{d})
value：(\vec{v_{i}} = \vec{x_{i}} W^{V} \in \mathbb{R}^{d})

其中，(W^{Q}, W^{K}, W^{V}) 分别为 (d \times d) 的参数方阵，那么 (\vec{q_{i}}, \vec{k_{i}}, \vec{v_{i}}) 皆为 (d) 维行向量。对于 (1 \leq i \leq n)，可以合并写为矩阵形式，i.e.，

[X_{n\times d} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \ —— ~ \vec{x_{2}} ~ —— \ \vdots \ —— ~ \vec{x_{n}} ~ —— \ \end{pmatrix} ~\ ~\ Q_{n\times d} = X W^{Q} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \ —— ~ \vec{x_{2}} ~ —— \ \vdots \ —— ~ \vec{x_{n}} ~ —— \ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \ & \vec{w^{Q}{1}}, & \vec{w^{Q}{2}}, & \cdots, &\vec{w^{Q}{d}}\ & \Big| & \Big| & & \Big| \ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{q{1}} ~ —— \ —— ~ \vec{q_{2}} ~ —— \ \vdots \ —— ~ \vec{q_{n}} ~ —— \ \end{pmatrix} ~\ ~\ K_{n\times d} = X W^{K} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \ —— ~ \vec{x_{2}} ~ —— \ \vdots \ —— ~ \vec{x_{n}} ~ —— \ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \ & \vec{w^{K}{1}}, & \vec{w^{K}{2}}, & \cdots, &\vec{w^{K}{d}}\ & \Big| & \Big| & & \Big| \ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{k{1}} ~ —— \ —— ~ \vec{k_{2}} ~ —— \ \vdots \ —— ~ \vec{k_{n}} ~ —— \ \end{pmatrix} ~\ ~\ V_{n\times d} = X W^{V} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \ —— ~ \vec{x_{2}} ~ —— \ \vdots \ —— ~ \vec{x_{n}} ~ —— \ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \ & \vec{w^{V}{1}}, & \vec{w^{V}{2}}, & \cdots, &\vec{w^{V}{d}}\ & \Big| & \Big| & & \Big| \ \end{pmatrix} = \begin{pmatrix} —— ~ \vec{v{1}} ~ —— \ —— ~ \vec{v_{2}} ~ —— \ \vdots \ —— ~ \vec{v_{n}} ~ —— \ \end{pmatrix} ]

如上所示，(\vec{w^{Q}{i}}, \vec{w^{K}{i}}, \vec{w^{V}_{i}}) 为 (d \times 1) 的列向量 for (\forall 1 \leq i \leq d)。

现在，对于 word embedding (\vec{x_{i}})，已求得其对应的(\vec{q_{i}}, \vec{k_{i}}, \vec{v_{i}})，因此 (\vec{x_{i}}) 的 attention 记作：

[A_{i}(q_{i}, K, V) = \sum\limits^{n}{i=1} \frac{\exp(q{i}k_{i}^{T})}{\sum\limits^{n}{j=1} \exp(q{j}k_{j}^{T})} v_{i} ]

其中，(q_{i}k_{i}^{T}) 与 (q_{j}k_{j}^{T}) 代表了 query 与 key 的内积，结果为标量。则 (A_{i}(q_{i}, K, V)) 的维度与最后乘上的 value (v_{i}) 相同，即为 (1 \times d) 的行向量。由于一共有 (n) 个 word embedding （(1 \leq i \leq n)），对应地，最终也应有 (n) 个维度为 (1 \times d) 的attention。写作矩阵形式为：

[A(X) = A(Q, K, V) = \mbox{softmax} \big( \frac{QK^{T}}{\sqrt{d}} \big) V ]

(A(X)) 即为 (n \times d) 的矩阵，softmax 定义为：

[\mbox{softmax}(z_{i}) = \frac{e^{z_{i}}}{\sum\limits^{n}{j=1}e^{z{j}}} ]

注意，最终式中除以(\sqrt{d}) 的原因是，维度 (d) 的增大会导致整个向量的方差增大，因此更容易出现极端值（即非常大与非常小的值），使 softmax 的梯度变得极小。

从 Nadaraya–Watson Kernel Regression 到 Attention

Attention 其实就是 Nadaraya–Watson Kernel Regression 在 Deep Learning 中的应用，核心思想完全一致，实际上这种思想在机器学习中随处可见，尤其在非参估计（Non-parametric estimation)中。

线性回归及其衍生（e.g. Lasso, Ridge and etc.）存在的一个缺陷是，如果我们不知道independent variables 与 dependent variables 之间联系的参数形式，那么就无法建立模型并对参数进行估计。因此，Kernel Regression 所解决的便是在没有模型假设的情况下对一个新的 test point (\vec{x}) 进行 label 的预测。

一个顺应逻辑的想法是，将新的 test point (\vec{x}) 的 local neighborhood (X) 中所包含的全部 observed data （or training data）的 label 的平均值视为 estimate (\hat{y})，即：

[\hat{y} = f(\vec{x}) = \mbox{average estimate } y \mbox{ of observed data in a local neighborhood } X \mbox{ of } \vec{x} ]

也就是说，对于新的 test data (\vec{x}), 它的 label 可以被估计为邻域中所有已知数据的 label 的平均值。当然，我们对于邻域的选择是灵活的，并且 “平均值” 也只是其中一种估计法。总得来说，我们有 Kernel Regression 的一般式：

[\hat{y} = \hat{f_{n}}(\vec{x}) = \sum\limits^{\infty}{i=1} w{i}(\vec{x}) y_{i} ]

其中，(w_{i}(\vec{x})) 为突显 local observation 的权重，定义为：

[w_{i}(x) = \frac{K_{h}(x, x_{i})}{\sum\limits^{n}{j=1} K_h(x, x{j})} ]

对于 Kernel Regression 中 “核” （即kernel，或 localization function）的选择，一般来说有：

Gaussian Kernal: (\quad K_{h}(x, x^{‘}) = e^{-\frac{||x – x^{‘}||^{2}}{h}})
Box Kernel: (\quad K_{h}(x, x^{‘}) = \mathbb{I}_{\left{ ||x-x^{‘}|| \leq h \right}})
Triangle Kernel: (\quad K_{h}(x, x^{‘}) = \left[ 1 – \frac{||x – x^{‘}||}{h} \right]_{+})

Kernel 的选择是灵活的，其本质只是衡量任意 observed data 对一个新数据点的预测值的贡献程度。因此通常满足：对于距待预测数据 (\vec{x}) 越近的 (\vec{x_{i}})，所得到的函数结果 (K_{h}(\vec{x}, \vec{x_{i}})) 应越大。

到这里我们可以很清晰地发现，attention 就是一个运用了 exponential function 作为 kernel 的权重运算结果。因此，attention 的计算也可以形象地写为：

根据已知数据(x_{i}) 与相应的 label (y_{i}) ((1 \leq i \leq n)) ，预测在(x) 处的 label (y)。(x) 即为要查询的 query，(x_{i}) 即为 key，(y_{i}) 即为 value，满足：

[\begin{align} y = \sum \limits^{\infty}{i=1} \alpha(x, x{i})y_{i}\ \alpha(x, x_{i}) = \frac{k(x, x_{i})}{\sum_{j} k(x, x_{j})} \end{align} ]

同时，这也揭示了为什么它的名字叫做 “attention（注意力）”，这个注意力就像 Kernel Regression 我们取的 local neighborhood，代表了我们在预测 (\vec{x}) 的 label 时，注意力放在了结果权重大的 neighborhood 中，而对于 neighborhood 以外，权重相对很小，因此不需要过分关注。

Attention 结构的意义

现在我们知道：

[A(X) = A(Q, K, V) = \mbox{softmax} \big( \frac{QK^{T}}{\sqrt{d}} \big) V ]

其中 (Q = X W^{Q}, K = X W^{K}, V = X W^{V})。

我们知道，(X W^{Q}) （(XW^{K}, XW^{V}) 同理）的本质是将 (X) 中的各行向量：(\vec{x_{1}}, \vec{x_{2}}, \ldots, \vec{x_{n}}) 变换到 (W^{Q}) 中以各列向量：(\vec{w^{Q}{1}}, \vec{w^{Q}{2}}, \ldots, \vec{w^{Q}{d}})为基所表示的向量空间中。所得新矩阵的第 (m) 列，为 (X) 在 (W^{Q}) 的第 m 个基（即 (\vec{w^{Q}{m}})）上的投影。那么，对于公式中分子 (Q K^{T})，本质上是变换到两个向量空间中的 (X) 的矩阵相乘，

[QK^{T} = XW^{Q} (W^{K})^{T} X^{T} ]

从实际意义上可以理解为：

[X X^{T} = \begin{pmatrix} —— ~ \vec{x_{1}} ~ —— \ —— ~ \vec{x_{2}} ~ —— \ \vdots \ —— ~ \vec{x_{n}} ~ —— \ \end{pmatrix} \begin{pmatrix} & \Big| & \Big| & & \Big| \ & \vec{x_{1}}^{T}, & \vec{x_{2}}^{T}, & \cdots, &\vec{x_{d}}^{T}\ & \Big| & \Big| & & \Big| \ \end{pmatrix} ]

以上的矩阵运算实际上是令 (\vec{x_{1}}, \vec{x_{2}}, \ldots, \vec{x_{n}}) 两两分别做内积（包括与自身），而向量内积：

[a \cdot b = |a| \cdot |b| \cdot \cos \theta ]

其中 (\theta) 为向量 (a, b) 之间的夹角。因此，内积运算反映了两个向量相似度。当两个向量越相似，即夹角越小，i.e. (\theta \rightarrow 0, \cos \theta \rightarrow 1)，导致内积越大，也就是其中一向量越能 “代表” 另一向量，通俗的解释即： “注意力在此处更集中”。

Original: https://www.cnblogs.com/chetianjian/p/16684008.html
Author: 车天健
Title: Self-Attention：初步理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/711818/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

RTC 系统音视频传输弱网对抗技术

qq: 517712484 wx: ldbgliet Original: https://www.cnblogs.com/lidabo/p/16501720.htmlAuthor:…

技术杂谈 2023年5月31日
0087
日常踩坑_JPA聚合查询

背景提要需求是要进行分组并统计每组的数量，本来以为JPA有GroupBy的语法的，看了一圈才发现原来没有这个语法，只能通过自己写sql的方式这其中又分为写原生sql(即 nati…

技术杂谈 2023年7月25日
0054
城市选择器

效果源码 https://github.com/YouXianMing/Animations ; // // CustomCityPickerViewController.m /…

技术杂谈 2023年6月1日
00113
国产化之银河麒麟安装.NetCore-包管理器方式

背景某个项目需要实现基础软件全部国产化，其中操作系统指定银河麒麟，数据库使用达梦V8，CPU平台的范围包括x64、龙芯、飞腾、鲲鹏等。考虑到这些基础产品对.NETCore的支持…

技术杂谈 2023年7月11日
0090
小熊飞桨练习册-08PaddleX底特律街景

小熊飞桨练习册-08PaddleX底特律街景简介小熊飞桨练习册-08PaddleX底特律街景，是学习图像分割小项目，本项目开发和测试均在 Ubuntu 20.04 系统下进行。…

技术杂谈 2023年7月23日
0087
安装Harbor之http版本

一、安装Harbor Harbor简介 Harbor是一个用于存储和分发Docker镜像的企业级Registry服务器，通过添加一些企业必需的功能特性，例如安全、标识和管理等，扩展…

技术杂谈 2023年5月31日
0086
将升序数组转化为平衡二叉搜索树

将升序数组转化为平衡二叉搜索树问题描述给定一个升序排序的数组，将其转化为平衡二叉搜索树（BST）。平衡二叉搜索树是指树上的每个节点 node 都满足左子树中所有节点的的值都小于…

技术杂谈 2023年7月25日
0062
21级三翼技术部复试(前端)参考资料

21级三翼技术部复试(前端)参考资料一个目的是复习巩固一下，因为军训时发现脑中突然回忆不起来盒子模型了，感觉还是稍微敲一下会有印象，二是和大家一起分享交流一下，因为不保证每个答案…

技术杂谈 2023年7月10日
0090
中文转拼音without CJK

Xamarin写Android程序时，通常要使用按中文首字母分组显示（如通讯录）。于是需要被迫包含CJK，不过包含后包肯定是会变大的，于是。。。。自己写了一个硬枚举的中文转拼…

技术杂谈 2023年5月31日
00101
VIM快捷键全集

VIM快捷键大法 vim是我最喜欢的编辑器，也是linux下第二强大的编辑器。虽然emacs是公认的世界第一，我认为使用emacs并没有使用vi进行编辑来得高效。如果是初学vi…

技术杂谈 2023年7月24日
0073
Linux Cgroup v1(中文翻译)(6)：Memory Resource Controller

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

技术杂谈 2023年7月11日
0073
Linux的安装和配置

Linux的安装和网络配置 CentOS7安装教程 https://www.php.cn/centos/472898.html 1.虚拟网络编辑器配置通过VMware菜单栏，依次…

技术杂谈 2023年7月11日
0082
一个用于 Microsoft.Extensions.Logging 的测试库MELT

可惜的是，ASP.NET团队目前没有计划为它提供出来，也正是在这个issue 的末尾出现了一个库MELT。 MELT 是一个免费的开源测试库，用于 .NET 标准 Microso…

技术杂谈 2023年5月31日
00107
20212217刘恒谦Python技能树及CSDN MarkDown编辑器测评

; ; 课程：《Python程序设计》班级：2122 姓名：刘恒谦学号：20212217 实验教师：王志强实验日期：2022年4月17日必修/选修：公选课对Python技…

技术杂谈 2023年7月24日
0084
【赵渝强老师】使用Weblogic的WLST工具

一、什么是Weblogic WLST？ WebLogic 脚本工具 (WebLogic Scripting Tool , WLST) 是一种命令行脚本界面，系统管理员和操作员用它来…

技术杂谈 2023年7月24日
0088
Go的隐秘世界：Go程序的启动和runtime初始化 asm_amd64.s

啥语言到了底层都是会编【汇编】再不行就Debug【仿真】。 Go的隐秘世界：Go程序的启动和runtime初始化 – 知乎https://zhuanlan.zhihu….

技术杂谈 2023年6月1日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Self-Attention：初步理解

Self-Attention 的基本结构与计算

从 Nadaraya–Watson Kernel Regression 到 Attention

Attention 结构的意义

大家都在看