Transformer算法完全解读

2023年5月23日下午11:50 • Python • 阅读 87

什么是注意力？

当我们看东西时，我们能够快速做出判断，因为我们的大脑可以在高分辨率下接收我们对图片某个区域的注意力，并在低分辨率下感知周围区域。而且视点可以随着时间的推移而改变，也就是说，人眼可以快速扫描全局图像，找到需要关注的目标区域(即在阅读文本时快速扫描全文)。然后找出关键段落、关键词)，然后对这一领域多加关注，以便获取更详细的信息，压制其他无用的信息，从而快速做出判断，而不是从头到尾观察事情。才能得到判决。

[En]

When we look at things, we are able to make a quick judgment because our brain can receive our attention on a certain area of the picture at high resolution and perceive the surrounding area at low resolution. And the viewpoint can change over time, in other words, the human eye can quickly scan the global image to find the target area that needs attention (that is, quickly scan the full text when reading the text. Then find the key paragraphs, keywords), and then assign more attention to this area, in order to get more detailed information and suppress other useless information, so as to make a quick judgment, rather than observing things from beginning to end. to get a judgment.

仿生学正是基于人脑的特点而进行的，从而提出了深度学习中的注意机制。在神经网络中，注意力机制可以被看作是一种资源分配机制，可以理解为根据对象的重要性重新分配资源，从而将重要的单元划分得更多，将不重要的或不好的单元划分得更少。

[En]

It is based on the characteristics of the human brain that bionics is carried out, thus the attention mechanism in deep learning is proposed. In the neural network, the attention mechanism can be regarded as a mechanism of resource allocation, which can be understood as redistributing resources according to the importance of the object, so that the important units will be divided more and the unimportant or bad units will be divided less.

如何将这种能力转移到计算机上？

[En]

How can this ability be transferred to a computer?

我们通过一个类比来说明：我们需要去定做一件衣服，想好需要的衣服后，我们去到服装店，把我们对衣服的关键性描述（$query$，$Q$）告诉老板，例如”男士衬衫、格子衬衫、纯棉”，随后，老板在脑海里将我们的描述与店里所有衣服样品（$value$，$V$）的描述（$key$，$K$）进行对比，然后拿出相对更加匹配的样品给我们看，看了之后，我们就发现，有些衣服有50%（权重）符合我们的心意，有些衣服只有20%符合我们心意，难道我们选择最满意的一件吗？不是，我们告诉老板，这件样品，你取这50%的特点，那件样品，取另外20%的特点，直到凑成100%（加权平均的过程），也就是完整衣服的特征，最后那件凑成的衣服，就是我们想要的衣服（注意力值）。

Transformer算法中的注意力机制，跟这个定做衣服的过程是很类似的。这里有三个很关键的概念，也就是上面提到的$query$（来自源数据）、$key$（来自目标数据）、$value$（来自目标数据），这里用”来自”这个词有些不太准确，因为$query$、$key$、$value$是通过源数据、目标数据（都是矩阵）与不同的矩阵（$W^Q$, $W^K$, $W^V$）相乘得到，放在神经网络中就是经过线性层变换。$query$、$key$、$value$三者之间是存在联系的，联系越紧密（越相似），那么权重就越大，最终获得的注意力就越多，所以，怎么来评判它们之间的相似度就很关键了。最简单的，就是使用余弦相似度，但是这里，我们更多的是使用点积的方式，两个向量越相似，点积就越大。获得点积之后，进行softmax操作，然后再与$value$矩阵进行加权求和，就获得了最终整个序列的注意力值。整个过程如图5所示。公式表示如下：

$$Attention(Q, K, V)=softmax(\frac{QK^T}{\sqrt[]{d_k}})$$

式中，$d_k$为输入样本维度数，除以$\sqrt[]{d_k}$是为了对最终注意力值大小进行规范化，使注意力得分贴近于正态分布，有助于后续梯度下降求解。

图5 注意力机制

Transformer中的注意力机制又不仅于此，Transformer还是用了一种自注意力机制，这种注意力机制中$query$、$key$、$value$三者都是同一矩阵经过变化得来，当然，再简化一点，直接使用初始数据矩阵作为$query$、$key$、$value$也不是不行。

这个过程很重要，是Transformer的核心，我们再用更加数学化的方式表述一遍。假设存在序列数据集$X={x_1, x_2, x_3, …, x_T}$（可以认为$x_1$是文本中的第一个词），$X$经过词嵌入和位置编码后，转为为${a_1, a_2, a_3, …, a_T}$，我们分别使用$W^Q$, $W^K$, $W^V$与之相乘，获得$q_i$，$k_i$，$v_i$，$i \in (1, 2, 3, …, T)$。以$x_1$为例，如何获得$x_1$的注意力值呢？

首先，我们用$x_1$对应的$query$即$q_1$与$k_1, k_2, k_3, …, k_T$计算向量点积，得到$\alpha_{11}, \alpha_{12}, \alpha_{12}, …, \alpha_{1T}$。注意，这时候的，$\alpha_{11}, \alpha_{12}, \alpha_{12}, …, \alpha_{1T}$在取值范围上，可未必在[0, 1]之间，还需要经过softmax处理；
然后，将$\alpha_{11}, \alpha_{12}, \alpha_{12}, …, \alpha_{1T}$输入softmax层，从而获取值在[0, 1]之间的注意力权重值，即$\hat \alpha_{11}, \hat \alpha_{12}, \hat \alpha_{12}, …, \hat \alpha_{1T}$，这相当于一个概率分布矩阵；
最后，将$\hat \alpha_{11}, \hat \alpha_{12}, \hat \alpha_{12}, …, \hat \alpha_{1T}$分别与对应的$v_1, v_2, v_3, …, v_T$相乘，然后求和，这样便获得了与输入的$x_1$相对应的注意力值$b_1$。

在注意机制层之后，输出矩阵中的每个词向量都包含了当前句子中所有词的语义信息，这对提高模型的性能至关重要。

[En]

After the attention mechanism layer, each word vector in the output matrix contains the semantic information of all the words in the current sentence, which is crucial to improve the performance of the model.

实现注意机制的流程代码如下：

[En]

The process code for implementing the attention mechanism is as follows:

Original: https://www.cnblogs.com/chenhuabin/p/16453665.html
Author: 奥辰
Title: Transformer算法完全解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/499129/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pygame5 动画精灵和碰撞检测

import sys import pygame pygame.init() screen = pygame.display.set_mode([640, 480]) screen…

Python 2023年9月23日
0039
python dataframe去除重复项_详解pandas使用drop_duplicates去除DataFrame重复项参数

Pandas之drop_duplicates：去除重复项 DataFrame.drop_duplicates(subset=None, keep=’first&#821…

Python 2023年8月19日
0048
跟苏朗写游戏（3）

前言上次我们已经开发完首页了，这次我们先把主程序开发一下吧，我们要做的是一个赛车类游戏（开发完之后作者可能会发源码）教程与代码精灵精灵就是游戏角色，学过pygame的人应该…

Python 2023年9月23日
0032
一起动手学数据分析 task02 数据清洗及特征处理

第二章第一节学习目录 * – 2.1 缺失值观察与处理 – + 2.1.1 任务一：缺失值观 + 2.1.2 任务二：对缺失值进行处理 – 2….

Python 2023年8月9日
0041
pytest单元测试框架

pytest 一. pytest做的四件事二. pytest的运行方式 * 2.1 主函数模式 2.2 命令行模式 2.3 基于pytest.ini文件的规则执行（生产中多用这种…

Python 2023年9月13日
0041
【Django | 项目搭建】快速搭建自己的项目

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推还没账户的…

Python 2023年8月6日
0043
Python 的 Geodaisy 库转换带负号坐标的WKT时的Bug

Geodaisy是一个Python库，用于创建由类型和坐标表示的地理对象，并在各种标准和表示之间进行转换，包括GeoJSON、Well – Known Text和Python的__…

Python 2023年5月25日
0078
python安装cv2包报错解决方法

1.在pycharm中安装cv2包报错 ERROR: Could not find a version that satisfies the requirement cv2 (fr…

Python 2023年8月3日
00103
数学建模笔记（六）：常微分方程及其应用

文章目录一、常微分方程概述 * 1.什么是常微分方程 2.以微分方程解决实际问题的一般思维 3.微分方程求解 4.微分方程适用问题 5.建立微分方程模型的方法二、物体的冷却过程…

Python 2023年9月15日
0039
pycharm连接docker解释器并且在本地使用matplotlib绘图方法

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、需求二、使用步骤 * 1.安装xserver 2.将Tkagg设置为docker镜像中mat…

Python 2023年9月1日
0056
python ——numpy

array import numpy as np a=np.array([1,2,3,4,5]) print(a) print(type(a)) b=np.array([[1,2,…

Python 2023年8月27日
0052
[python]-SimpleITK模块-医学影像标注nii.gz文件的读取与保存

SimpleITK模块以多种语言为 ITK 提供简化的接口，支持Python、R、Java、C#、Lua、Ruby、TCL 和 C++ 中的开源多维图像分析，由 Insight T…

Python 2023年10月29日
0045
在Python3里使用matplotlib绘折线图和散点图

网上关于Python使用matplotlib包进行绘图的文章不少，自己写一遍掌握得才更好。matplotlib是用于创建二维图表和图形的库，它不在标准python库之中，需要单独安…

Python 2023年8月31日
0058
pytest第一版入门学习

一、pytest 简介 pytest是一个非常成熟的单元框架，比unittest更灵活，容易上手。 pytest可以和selenium，request，appium结合实现web自…

Python 2023年9月14日
0036
使用Python分析网易云歌曲评论信息，通过可视化处理我发现了这些有趣的规律

前言前几天有个学生娃子找我帮忙做点可视化的作业，作业内容包括采集网易云音乐热评评论内容，数据量1W作业足够，然后就是做点数据分析相关的工作即可。这份大作业里边有网络爬虫，有数据分…

Python 2023年8月7日
0040
chatGPT的爆火，是计算机行业这次真的“饱和”了？

近日，chatGPT这一生成式AI爆火，这款号称神仙级别的自动语言生成式AI发布短短5天内，就吸引了100万用户，在官方描述中，chatGPT是一个”可以连续回答问题、…

Python 2023年11月4日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Transformer算法完全解读

大家都在看