图解自注意力机制

2023年6月24日上午10:27 • 人工智能 • 阅读 193

写在最前边

这个文章是《图解GPT-2 | The Illustrated GPT-2 (Visualizing Transformer Language Models)》的一部分，因为篇幅太长我就单独拿出来了。 当然如果你只想了解自注意力机制可以只看本文的前半部分。 后半部分主要是讲Masked Self-attention在GPT-2中的应用，不了解GPT-2的可以忽略这部分内容。
我补充的内容格式如下：

这是我补充的内容。仅属于我的个人理解，如有漏误欢迎批评指正。

文章目录

*
–
+ 自注意力
+ 图解Masked Self-attention
+ GPT-2 的 Masked Self-attention
+
* 1. 创建queries, keys和values
* 1.5 划分注意力头
* 2. 注意力分数
* 3. 求和
* 3.5 合并注意力头
* 4. 映射 projection
*
– GPT-2 全连接神经网络第一层
– GPT-2 全连接神经网络第二层：投影到模型维度
+ 你学完了！

正文

看下图，图中表示的是使用自注意力处理输入序列中的 it单词的时候。

接下来我们详细介绍一下这一过程是如何实现的。

注意，接下来的图解过程会用到很多 “向量” 来图解算法机制，而实际代码实现是使用矩阵进行计算的。这个分析过程是想让读者了解在处理过程中每个单词发生了什么，因此本文的重点是对单词级（word-level）处理逻辑进行解析。

; 自注意力

我们从原始的自注意开始，它是在一个Transformer组件（encoder）中计算的。我们先来看看这个简单的Transformer组件，假设它一次只处理四个tokens。

仅需三步即可实现自注意力：

为每个单词路径创建Query、Key、Value。
对于每个输入token，使用其Query向量对其他所有的token的Key向量进行评分，获得注意力分数。
将Value向量乘以上一步得到的注意力分数，之后加起来。

1. 创建Query、Key、Value

现在我们只关注第一个路径， 我们需要用它的Query和所有的Key比较，这一步骤会为每个路径都生成一个注意力分数。

先不管什么是多头自注意力，只考虑自注意力，也就是只有一个head的情况。自注意力计算的第一步就是要计算出每个路径的Query、Key、Value三个向量。

看下图是一次处理四个tokens，每个token都有它单独的路径，第一路径指的是X 1 X_1 X 1 这个token。

对于每个token来说对应的Query、Key、Value是三个向量，而在实际代码计算中是使用整个输入序列的矩阵。
获得Query、Key、Value三个向量的方法是每个单词的表示向量和对应的权重矩阵（W Q 、 W K 、 W V W^Q、W^K、W^V W Q 、W K 、W V）做矩阵乘法。

2. 计算注意力分数

现在我们已经有了Query、Key、Value三个向量。在第二步我们只需要用到Query和Key向量。 因为我们关注的是第一个token，所以我们将第一个token的Query和其他token的key向量做点乘，这样计算会得到每一个token的注意力分数。

3. 求和

现在对于每个token，将上一步得到的注意力分数乘以Value向量。将相乘之后的结果加起来，那些注意力分数大的占比会更大。

对于Value向量，注意力分数越低，颜色越透明。这是为了说明乘以一个小数如何稀释不同token的Value向量。

看下图，注意力分数乘以每个Value向量，原作者用不同深浅的蓝色的框框表示计算之后的结果。可以看到V 3 V_3 V 3 比较显眼，V 2 V_2 V 2 几乎看不到了，然后将计算结果加起来得到Z 1 Z_1 Z 1 。这个Z 1 Z_1 Z 1 就是X 1 X_1 X 1 新的表示向量，这个向量除了单词本身，还涵盖了上下文其他token的信息。

这一过程可以认为注意力分数就是表示不同单词重要性的权重，而整个自注意力计算就是求所有token的加权和，这一过程可以引入其他token的表示，让当前token获得上下文信息。

之后我们对每个token都进行相同的操作，最终会得到每个token新的表示向量，新向量中包含该token的上下文信息。之后会将这些数据传给Transformer组件的下一个子层（前馈神经网络）：

图解Masked Self-attention

现在我们已经了解了Transformer中普通的自注意力机制，让我们继续看看带Masked自注意力。

Masked自注意力和普通的自注意力是一样的，除了第二步计算注意力分数的时候有点差异。

假设模型只有两个token作为输入，我们当前正在处理第二个token。在下图的例子中，最后两个token会被屏蔽掉。这样模型就可以干扰计算注意力分数这一步骤，它会让未输入的token的注意力得分为0，这样未输入的token就不会影响当前token的计算，当前token的注意力只会关注到在它之前输入的tokens。

这种屏蔽通常以矩阵的形式实现，称为注意力屏蔽（attention mask）。

还是假设输入序列由四个单词组成，例如 robot must obey orders。在语言建模场景中，每个单词需要一个步骤处理（假设现在每个单词都是一个token），因此这个序列包含四个处理步骤。由于模型是按照批量（batch）进行处理的，我们可以假设这个模型的批量大小为4（batch_size = 4），然后模型将把整个序列作为一个batch进行处理。

假设现在每个单词都是一个token。单词word 不一定等于 token，这是由分词方式决定的。

token无法直接计算注意力分数，因此我们需要用tokens对应的Query和Key进行计算。搞成矩阵乘法的形式，我们通过将Query向量乘以Key矩阵来计算注意力分数。

完成乘法运算后，我们要加上一个mask矩阵屏蔽掉当前还未输入的词，就是加一个上三角形矩阵，一般是将我们想要屏蔽的位置设置为− ∞ -∞−∞或一个非常大的负数（GPT-2中的为负一亿）：

然后，对每一行进行softmax就会转化成我们需要的注意力分数:

这个分数表的含义如下：

第一步：只输入一个词 robot，当模型处理数据集中的第一个单词时，也就是score矩阵的第一行，因为其中只包含一个单词 robot，所以它的注意力100%集中在这个单词上。
第二步：输入 robot must，当模型处理第二个单词 must时（score矩阵第二行），48%的注意力会放在 robot上，52%的注意力会放在 must上。
以此类推……

; GPT-2 的 Masked Self-attention

让我们更详细地了解一下GPT-2中的masked注意力。

现在还是假设模型做预测任务，每次处理一个 token。

使用训练好的模型进行预测的时候，模型在每次迭代后都会增加一个新词，对于已经处理过的token来说，沿着之前的路径重新计算效率很低。

因为一个训练好的模型，每个组件的权重矩阵是固定的。每次增加一个token都要重新计算整个输入序列的QKV的话会造成巨大的计算开销。
比如 a robot must obey the rule，如果第一次迭代时候只有 a，仅需要计算它的QKV，第二次迭代时候是 a robot，就需要计算二者的QKV。但是这样就重复计算了 a的QKV

GPT-2的高效处理方法如下：

之后GPT-2会保留 a token的Key和Value向量。以便之后使用。

注意，每个组件的自注意力层都有各自的Key和Value向量，不同的组件中Key和Value向量不共享：

在下一次迭代中，当模型处理单词 robot时，它不需要为 a重新生成Query、Key、Value，而是直接用第一次迭代中保存的那些：

1. 创建queries, keys和values

让我们假设这个模型正在处理单词 it。如果我们讨论的是最底层的decoder组件，那么它接收的token的输入是token的嵌入+ 第九个位置的位置编码：

Transformer中的每个组件之权重不共享，都有自己的权重。我们首先要和权重矩阵进行计算，我们使用权重矩阵创建Query、Key、Value。

自注意力子层会将输入乘以权值矩阵（还会加上bias，图中没表示出来），乘法会产生一个向量，这个向量是单词 it的Query、Key、Value的拼接向量。

将输入向量乘以注意力权重向量(然后添加一个偏差向量)，就会得到这个token的Query、Key、Value向量。

; 1.5 划分注意力头

在前面的例子中，我们只专注于自注意力，忽略了”多头”（muti-head）的部分。现在说一下什么是”多头”。
就是将原来一个长的Query、Key、Value向量按照不同位置截取并拆分成短的向量。

前边的例子中我们已经了解了一个注意力头怎么计算，现在我们考虑一下多头注意力，如下图考虑有三个head。

2. 注意力分数

现在我们可以开始打分了，你们应该知道，我们这只画出来一个注意力头（head #1），其他的头也是这么计算的：

现在，该token可以针对其他token的所有Value进行评分:

; 3. 求和

和前边讲的一样，我们现在将每个Value与它的注意力分数相乘，然后将它们相加，产生head #1的自我注意结果Z Z Z：

3.5 合并注意力头

不同的注意力头会得到不同的Z Z Z，我们处理不同注意力头的方法是把这个Z Z Z连接成一个向量：

但是这个拼接结果向量还不能传给下一个子层。

我们需要把这个 拼接向量再做一次projection，得到另一个同类表示。

作者原文写的”We need to first turn this Frankenstein’s-monster of hidden states into a homogenous representation.” 直译是”我们需要首先把这个隐藏状态的弗兰肯斯坦怪物变成同类表示。”
弗兰肯斯坦是一个人造人，是个怪物，作者是玛丽·雪莱，这本书可以看作是科幻小说开山之作。感兴趣的可以看一下。

拼接向量再做一次projection（映射）： 对于这句我存在一些疑问。因为我看了其他人对这篇文章的翻译，如下图，这个人说这里的projection是因为维度不对，需要调整维度。这是错误的！！！ 看下边第4节可以知道这个projection并没有改变维度、向量长度。至于为什么这里需要projection，第4节也进行了解释。

我也看了一下GPT-2的源码，维度、向量长度确实没有发生变化。 以下列出链接，感兴趣的可以自己去查证，如果有错误欢迎指正，有问题也欢迎和我探讨。

; 4. 映射 projection

我们要让模型学习到 如何将自注意力的拼接结果更好地映射成前馈神经网络可以处理的向量 。因此这里要做一步映射。

在这就用到了我们的第二大权重矩阵，它将自注意力的拼接结果映射为自注意力子层的输出向量：

注意这里的Zoom out意思是维度没有变，只是用更少的格子来表示这个向量。

既然这有一个权重，那肯定模型训练过程中要学啊，学这个权重矩阵的目的就是为了让模型能把 自注意力计算之后拼接的那个矩阵 映射到 前馈神经网更好处理的矩阵，个人认为这里的projection就是做了一个平滑作用。

之后我们就产生了可以发送到下一层的向量：

GPT-2 全连接神经网络第一层

全连接神经网络的输入是自注意力层的输出，用于处理自注意力子层得到的token的新的表示，这个新的表示包含了原始token及其上下文的信息。

全连接神经网络由两层组成。第一层是把向量转化到模型大小的4倍（因为GPT-2 small是隐状态大小是768，所以GPT-2中的全连接神经网络第一层会将其投影到768*4 = 3072个单位的向量中)。为什么是四倍？因为原始Transformer的也是四倍，这里就没改。

上图没画出bias。

; GPT-2 全连接神经网络第二层：投影到模型维度

第二层将第一层的结果再投射回模型的维度(GPT-2 small为768)。这个计算结果就是一个完整的Transformer组件（decoder）对token的处理结果。

上图没画出bias。

你学完了！

总结一下输入向量都会遇到哪些权重矩阵：

每个Transformer组件都有自己的权重。组件之间权重不共享！

另外，该模型只有一个token的嵌入矩阵和一个位置编码矩阵：

如果你想知道模型的所有参数，我在这进行了统计：

由于某种原因，它们加起来有124M的参数，但是实际GPT-2 small模型只有117M参数。我不知道为什么，但这就是他们发布的代码中的参数数量（如果我错了欢迎指正）。

上图中博客作者对GPT-2 small的参数进行了统计，计算结果和OpenAI开源的GPT-2模型的参数量不一样。
作者算的是124M，实际代码中只有117M，
原因如下：
OpenAI团队说：”我们论文里参数计算方法写错了。所以你现在可以看到GPT-2 small模型参数只有117M……”

截图来源https://github.com/openai/gpt-2
Original: https://blog.csdn.net/qq_36667170/article/details/125635257
Author: LolitaAnn
Title: 图解自注意力机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/648882/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

MNIST训练

MNIST训练数据下载&训练代码结果 * 1. CNN结构 2. fc_net_4layer 3. fc_net_2layer 4. 三种网络对比遇到的问题数据下载…

人工智能 2023年7月14日
0060
Python3.8安装cartopy报错ImportError: DLL load failed while importing trace: 找不到指定的模块。

最近安装cartopy走了很多弯路，记录一下 win7,64位，Python版本3.8.7 1.报错主要还是因为cartopy和依赖包的问题，于是卸载了cartopy以及依赖包 p…

人工智能 2023年7月5日
0065
目前最火的人工神经网络,神经网络未来发展趋势

在选择专业时也需要考虑就业前景，2022年什么专业吃香？专业设计设计方案分成广告设计、UI全球、室内装饰设计这三大类型，设计方案的实质是把握PS等制图软件，根据自身的互动，艺术创…

人工智能 2023年7月13日
0062
DM达梦数据库的使用以及数据迁移工具的使用

1、找不到DM数据库的相关软件我们打开虚拟机的终端，在根目录下输入命令： ./manager ——-》是打开达梦数据库的管理工具 ./dts &#8212…

人工智能 2023年6月29日
0092
重参数 (Reparameterization)

Contents 基本概念连续情形离散情形 * Gumbel Max Gumbel Softmax Straight-Through Gumbel-Softmax Estima…

人工智能 2023年6月15日
00187
TensorRT+Yolov7-tiny:基于TensorRT+API部署YoloV7-tiny模型

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月9日
0073
线性回归复习：普通线性回归，knn线性回归，岭回归，lasso回归

目录线性回归引入 knn线性回归(糖尿病数据集) * 找到一个更好的模型（knn调参，评价（MAE,MSE））岭回归 * – 岭回归的基本使用糖尿病的回归分析 l…

人工智能 2023年6月17日
0078
python :高效率执行模型 ONNX基础使用笔记：神经网络导出与部署

导出模型(安装pytorch的环境可直接运行一下代码)： pytorch官方的例子(可以看到笔记中将 device设置为”cpu”，方便兼容读者进行测试)：…

人工智能 2023年7月14日
0054
月薪10.8K，从销售客服转行软件测试斩获4份offer，所有的惊艳都来自长久的准备

时间不会辜负努力的人，不要质疑你的付出，每一次的努力都是在为自己铺路，所有看起来的幸运，都来自于内心的坚定。今天跟大家分享的是我的转行经历，希望所有人今天的努力，在未来都可以收获一…

人工智能 2023年6月29日
0072
ci发什么音标_英语音标带发音方法详解，口语不好想学音标的看过这篇文章就够了…

最近在和同学们聊天时，很多同学告诉我，他们的英语口语不好，非常想提高自己的水平。然而，英语口语的提高不是一蹴而就的，还需要一个缓慢积累和练习的过程。如果你想提高你的英语口语，最重要…

人工智能 2023年5月27日
00144
ch4 数据分析

全域–全局–局部全域流转地图基于公司战略，通过准确的业务定位于行业发展现状描绘全域流转地图；全局流转地图根据产品策略分为三大板块：站外渠道（用于检测流量分发、识别渠道异常）、平…

人工智能 2023年7月17日
0053
图神经网络17-DGL实战：节点分类/回归

对于图神经网络来说，最常见和被广泛使用的任务之一就是节点分类。图数据中的训练、验证和测试集中的每个节点都具有从一组预定义的类别中分配的一个类别，即正确的标注。节点回归任务也类似，训…

人工智能 2023年6月17日
0091
python中的引用

C++中的指针和引用，可以参考博客https://www.cnblogs.com/heyonggang/archive/2012/12/13/2815730.html 问题导入？…

人工智能 2023年7月5日
0084
[Python]-numpy模块-机器学习Python入门《Python机器学习手册》-01-向量、矩阵和数组

《Python机器学习手册——从数据预处理到深度学习》这本书类似于工具书或者字典，对于python具体代码的调用和使用场景写的很清楚，感觉虽然是工具书，但是对照着做一遍应该可以对…

人工智能 2023年6月4日
0062
机器学习——LDA（线性判别分析）与人脸识别

忆如完整项目/代码详见github： https://github.com/yiru1225（转载标明出处勿白嫖 star for projects thanks）目录系列文…

人工智能 2023年7月27日
0058
天池学习赛：保险反欺诈预测（附代码）

前言一、赛题介绍二、数据描述性统计 1.查看缺失值、重复值、统计目标变量比例 2.查看异常值 3.查看训练集与测试集数据分布 3.1 查看数值变量 3.2 查看部分分类变量 4…

人工智能 2023年7月4日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31