注意力机制(Attention)原理详解

2023年6月15日上午5:07 • 人工智能 • 阅读 75

文章结构

1. 为什么需要Attention
2. Attention的基本原理
3.自注意力机制（Self-Attention）
4.总结
为什么需要Attention

在了解Attention之前，首先应该了解为什么我们需要注意力机制。我们以传统的机器翻译为例子来说明为什么我们需要Attention。

传统的机器翻译，也称机器翻译(Neural machine translation)，它是由encoder和decoder两个板块组成。其中Encoder和Decoder都是一个RNN，也可以是LSTM。不熟悉RNN是如何工作的读者，请参考RNN原理。假如现在想要将’我是一个学生。’翻译成英文’I am a student.’，传统的机器翻译是如何操作的呢？

在将中文 ‘我是一个学生’ 输入到encoder之前，应首先应该使用一些embedding技术将每一个词语表示成一个向量。encoder的工作原理和RNN类似，将词向量输入到Encoder中之后，我们将最后一个hidden state的输出结果作为encoder的输出，称之为context。Context可以理解成是encoder对当前输入句子的理解。之后将context输入进decoder中，然后每一个decoder中的hidden state的输出就是decoder 所预测的当前位子的单词。从encoder到decoder的过程中，encoder中的第一个hidden state 是随机初始化的且在encoder中我们只在乎它的最后一个hidden state的输出，但是在decoder中，它的初始hidden state 是encoder的输出，且我们关心每一个decoder中的hidden state 的输出。
传统机器翻译的过程可以用下图来表示：

图中的END，是一个结束标志，意味着输入已经结束。从上面的叙述中可以看到，decoder的输出取决于encoder最后一个hidden state 的输出，当输入句子很长的时候，前面的信息可能不能很好的被encoder记录。且decoder在输出的时候，不知道当前位置对应着输入的哪一个位置。此外，就算是将encoder 中所有的hidden state 全部给decoder,仍然存在问题，因为两种语言之间单词之间的位置可能没有一一对应的关系，比如中文的 ‘我是一个学生’ 是5个词翻译成英文之后就只有4个词了。还有一些语言的语法位置也不是一一对应的。我们希望能有一种方式可以让模型关注输入的相关部分。比如还是以 ‘ 我是一个学生。’为例，我们希望模型可以在翻译student的时候，更加的关注 ‘学生’这个词而不是其他位子的词。这种需求下，提出Attention技术。

; 2. Attention的基本原理

Attention 的大致过程是这样的。和传统机器翻译不同的是，Attention需要encoder中所有的hidden states的信息都传入decoder中，若encoder中有N个hidden states，则需要将这N个hidden states 的信息全部给decoder。将所有信息传入decoder之前，我们需要为N个hidden states 分别设置一个权重（之后会详细解释如何求得权重),之后将每一个hidden state 根据设置权重加权求和，再将所有加权求和之后的 hidden states 输入到decoder中。

假设现在decoder正在预测句子中的第i个单词，则将decoder中的第i个hidden state 与每一个encoder的hidden state 做计算，得到一组’得分’（注意”得分”是一个向量且长度应该与输入decoder中的hidden states 数量一致），每一个’得分’代表了模型在预测当前位置的单词时的注意力，得分越高，模型对其的注意力也就越大。然后使用softmax将这个’得分’向量变成一个概率分布，将其结果作为权重与对应的hidden state做加权求和，将得到的结果与当前时刻decoder的hidden state 相加，作为下一个decoder hidden layer的输入。

上述步骤用示意图进行表示：

那么Attention技术中的权重是如何求得的呢?

首先先了解所谓的 ‘得分’ 是如何求得的，这里使用Luong的定义：

其中h t h_t h t 是第t个时刻decoder的hidden state，而 h s ˉ \bar{h_{s}}h s ˉ表示的是encoder的hidden states，W是一个需要学习的矩阵，且在整个过程中，都使用同一个W，在求得了得分之后我们就可以求得Attention的权重了：

然后再将权重与encoder中的hidden states 相乘求得 context vector（也就是图中的C1，C2）：

之后就可以计算Attention vector了：

上述方程阐述的是将c t c_t c t 与h t h_t h t 结合的过程，对应图中C1 与 H7 和 C2 与 H8相结合的过程。从上述的四个式子中我们可以发现decoder中的hidden state 被被使用了两次，第一次是使用在了求权重a t s a_{ts}a t s 中，第二次使用在了与c t c_t c t 结合生成a t a_t a t 的步骤中。

3.自注意力机制（Self-Attention）

从上述的阐述中可以了解到 Attention的产生是依赖于一个权重，它告诉了模型哪些词需要重视，哪些词不太需要重视。我们也可以发现，这个权重的产生是需要encoder的输出和decoder中t时刻hidden state 来产生的。那么所谓的自注意力机制是什么？了解自注意力机制之前，首先先简单了解一下Transformer网络，它也是基于机器翻译推出的，最先出现在论文《Attention is all you need》中，这篇论文提到的是去掉RNN网络，只使用Self-Attention技术，会使网络训练得更快。

Transformer 也是用多个encoder 和 decoder 组合而成的。下图表示的是一个encoder和一个decoder的结构:

从上图可以发现Encoder中包含着两层分别是Self-attention层和一个Feed forward层，decoder中包含着三层，分别是self-attention, encoder-decoder Attention 和 Feed forward 层。其中所谓的encoder-decoder Attention就和先前讲到的Attention机制一样，需要同时使用encoder和decoder的信息来生成Attention。

在Transformer的encoder结构如下图所示：

这个encoder的结构并不太复杂，总的来说就是将上一层的输入x i ; i = x_i ;i=x i ;i ={1,2,3…},输入到self-attention层中，然后输出一个对应的向量 z i z_i z i 并将每一个z i z_i z i 输入到一个单独的 Feed forward 网络中去，得到对应的输出 r i r_i r i ，之后再将 r i r_i r i 输入到下一个Self-Attention层中，以此类推。

从上述过程中可以看出，不同的输入唯一发生信息交换的地方就是在self-attention层中。所以self-attention的产生只是依赖于多个输入数据自己产生的，而不是像Attention那样需要encoder和decoder的信息。这也是为什么它叫做self-attention的原因。

那么在self-attention层中到底发生了什么呢？

首先我们将需要翻译的词语做embedding 同时随机生成三个矩阵，分别为 W Q W^Q W Q,W K W^K W K,W V W^V W V，并将每一个词语的词向量都与这个三个矩阵相乘，得到三个新的向量，称之为 ‘Queries’ , ‘Keys’, ‘Values’。根据上图，我们将q1与k1相乘得到 y 1 y_1 y 1 ，然后再将q1与k2相乘得到 y 2 y_2 y 2 ，分别将 y 1 , y 2 y_1,y_2 y 1 ,y 2 除以d k \sqrt{d_k}d k 得到y 1 ′ , y 2 ′ y_1^{‘},y_2^{‘}y 1 ′,y 2 ′，其中d k d_k d k 可以理解成是词向量x的长度。之后将得到的d k \sqrt{d_k}d k 得到y 1 ′ , y 2 ′ y_1^{‘},y_2^{‘}y 1 ′,y 2 ′分别通过softmax得到两个权重s 1 , s 2 s_1,s_2 s 1 ,s 2 ，然后使用s 1 , s 2 s_1,s_2 s 1 ,s 2 分别乘以v 1 v_1 v 1 再将两个结果相加，得到的结果就是z 1 z_1 z 1 。z 2 z_2 z 2 的得来也是一样的步骤。

; 4.总结

本文记录了Attention以及Self-Attention的基本原理，以及他们是如何做到聚焦输入的局部信息的。Attention的产生需要encoder与decoder的信息结合，而self-attention的产生是输入经过一系列的复杂矩阵运算得到的结构。Self-attention技术可以不用在依赖于RNN。使得训练更加高效。

Original: https://blog.csdn.net/weixin_52668444/article/details/115288690
Author: Gamma and Beta
Title: 注意力机制(Attention)原理详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613766/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于一维和二维卷积，以及1*1卷积核的理解

本文图片大部分来自吴恩达Andrew Ng老师的深度学习课程。基础操作：最基本的卷积操作是把卷积核在输入中移动（扫一遍），获得输出。 ; 维度：一维卷积和二维卷积的维度是指…

人工智能 2023年7月13日
0063
图像处理Opencv（六）

图像梯度梯度：对于图像，我们选定一定范围（可能是点边界，线边界，闭合边界），对于边界到边界图像像素点像素值的变化我们称之为梯度。 Sobel算子概念：Sobel算子主要用于获得…

人工智能 2023年6月22日
00104
第十届“泰迪杯”比赛B题解题思路及代码论文

今年大二，因为对编程感兴趣入坑，算下来自学编程快要一年了，了解了关于计算机的很多方向，暑假偶然间了解到数据分析和挖掘，觉得挺有趣的就想深入学习以下，于是开始学习pandas，然后机…

人工智能 2023年6月19日
0098
数据挖掘实验二：聚类技术—复杂网络社团检测

实验二：聚类技术—复杂网络社团检测实验内容导入karate.gml中的空手道网络数据；根据网络结构特征给出节点相似性度量指标；采用层次聚类过程对网络数据进行聚类；计算模…

人工智能 2023年7月17日
0063
注意力机制——CAM、SAM、CBAM、SE

CAM、SAM、CBAM详见：CBAM——即插即用的注意力模块（附代码）目录 1.什么是注意力机制？ 2.通道注意力机制——SE （1）Squeeze （2）Excitation…

人工智能 2023年6月16日
00103
Dataframe取特定的行/列&按行/列遍历数据的值_python处理Excel入门

文章目录取Dataframe特定的行/列 * 取特定的列 – 按列名选取列取特定的行 – 按行名选取行按数字选取行同时选取行和列 – 按…

人工智能 2023年7月7日
0099
大数据分析那点事

写在前文，首先声明博主对数据分析领域也在不断学习当中，文章中难免可能会出现一些错误，欢迎大家及时指正，博主在此之前也曾对不同量级、不同领域的数据进行过分析，但是在过程中总是感觉有…

人工智能 2023年6月19日
00120
Ubuntu配置OpenCV及多版本OpenCV共存

用到过两次了，每次都要重新找资料，在这里记录一下，下次用到就不用再找教程了。假设我们已经安装好一版OpenCV，一般都安装在 /usr/local下。如果需要安装另一个版本的Op…

人工智能 2023年6月19日
0096
计算机网络—UDP协议

（一）UDP概述 UDP 仅在IP的数据报服务之上增加了两个最基本的服务：复用和分用以及差错检测。如果应用开发者选择UDP而非 TCP，那么应用程序几乎直接与IP打交道。为什么应用…

人工智能 2023年6月30日
0055
回归标准差和残差平方和的关系_回归分析解释之——估计的标准误差（SEE）

CFAL2复习Day3: 今天的知识点是一元线性回归中的SEE，全称： Standard Error of Estimate。我把它记为估计的标准误差，不知道对不对。考纲对这个知识…

人工智能 2023年6月18日
0064
全球及中国医药级葡萄糖酸钙行业投资分析及前景趋势预测报告2022-2028年

全球及中国医药级葡萄糖酸钙行业投资分析及前景趋势预测报告2022-2028年详情内容请咨询鸿晟信合研究院！【全新修订】：2022年3月【撰写单位】：鸿晟信合研究网 2021年全球医…

人工智能 2023年7月17日
0045
【数据挖掘 | 可视化】 WordCloud 词云（附详细代码案例)

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 开发环&#…

人工智能 2023年7月30日
0083
Labelme 安装以及使用

好久没有使用标注工具了，应工作需要，补一篇，自己实践后，总结如下 1.labelme 简介 labelme 是一款图像标注工具，主要用于神经网络构建前的数据集准备工作，因为是用 P…

人工智能 2023年7月3日
0082
处理数据时，遇到缺失值与异常值怎么办？

缺失值：是指粗糙数据中由于缺少信息而造成的数据的聚类、分组、删失或截断。它指的是现有数据集中某个或某些属性的值是不完全的。异常值：异常值是指数据集中存在不合理的值，又称离群点。一…

人工智能 2023年6月11日
00140
pandas.DataFrame.interpolate函数方法的使用

Pandas dataframe.interpolate()功能本质上是用来填充NA DataFrame 或系列中的值。但是，这是一个非常强大的功能，可以填补缺失的值。它使用各种插…

人工智能 2023年7月15日
0076
搞AI开发，你不得不会的PyCharm技术

摘要：PyCharm在AI项目开发提供了优秀的代码编辑、调试、远程连接和同步能力，在开发者中广受欢迎。使用PyCharm插件配合ModelArts：一键帮助用户配置远程Mode…

人工智能 2023年6月23日
00103

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

注意力机制(Attention)原理详解

文章结构

大家都在看