变形金刚——Transformer入门刨析详解

2023年7月26日上午6:04 • 人工智能 • 阅读 64

Transformer是什么呢？

\qquadTransformer最早起源于论文Attention is all your need，是谷歌云TPU推荐的参考模型。
\qquad目前，在NLP领域当中，主要存在三种特征处理器——CNN、RNN以及Transformer，当前Transformer的流行程度已经大过CNN和RNN，它抛弃了传统CNN和RNN神经网络，整个网络结构完全由Attention机制以及前馈神经网络组成。首先给出一个来自原论文的Transformer整体架构图方便之后回顾。

那么要想了解Transformer，就必须先了解”self attention”。
\qquad如果给出一个Sequence要处理，最常想到的可能就是RNN了，如下图1所示。RNN被经常使用在输入是有序列信息的模型中，但它也存在一个问题——它不容易被”平行化”。那么”平行化”是什么呢？
\qquad比如说在RNN中a1,a2,a3,a4就是输入，b1,b2,b3,b4就是输出。对于单向RNN，如果你要输出b3那么你需要把a1,a2,a3都输入并运算了才能得到；对于双向RNN，如果你要输出任何一个bi,那么你要把所有的ai都输入并运算过才能得到。它们无法同时进行运算得出b1,b2,b3,b4。

\qquad而针对RNN无法”平行化”这个问题，有人提出了使用CNN来取代RNN，如下图所示。输入输出依然为ai、bi。它利用一个个Filter（如下图黄色三角形）（我的理解是类似于计网的滑动窗口协议）去得出相应的输出，比如b1是通过a1,a2一起得出；b2是通过a1,a2,a3得出。可能会存在一个疑问——这样不就只考虑临近输入的信息，而对长距离信息没有考虑了？
\qquad当然不是这样，它可以考虑长距离信息的输入，只需要在输出bi上再叠加一层Filters就能涵盖更多的信息，如下图黄色三角形，所有输入ai运算得出b1,b2,b3作为该层的输入。所以说只要你叠加的层数够多，它可以包含你所有的输入信息。
\qquad回到咱们对”平行化”问题的解答：使用CNN是可以做到”平行化”的，下图中每一个蓝色的三角形，并不用等前面的三角形执行完才能执行，它们可以同时进行运算。

; self attention

\qquadself attention模型输入的xi先做embedding得到ai，每一个xi都分别乘上三个不同的w得到q、k、v。

其中：\qquad \qquad \qquad \qquad a i = W x i \ a^i=Wx^i a i =W x i
\qquad \qquad \qquad \qquad \qquad q i = W q a i \ q^i=W^qa^i q i =W q a i
\qquad \qquad \qquad \qquad \qquad k i = W k a i \ k^i=W^ka^i k i =W k a i
\qquad \qquad \qquad \qquad \qquad v i = W v a i \ v^i=W^va^i v i =W v a i
拿每个qi去对每个ki做点积得到a 1 , i \ a_{1,i}a 1 ,i ，其中d是q和k的维度。
\qquad \qquad \qquad \qquad \qquad a 1 , i = q 1 ⋅ k i / d \ a_{1,i}=q^1·k^i/{\sqrt d}a 1 ,i =q 1 ⋅k i /d
变形金刚——Transformer入门刨析详解

再把a 1 , i \ a_{1,i}a 1 ,i 经过一个Soft-max之后得到a ^ 1 , i \hat a_{1,i}a ^1 ,i
a ^ 1 , i = e x p ( a 1 , i ) / ∑ j e x p ( a 1 , j ) \hat a_{1,i} =exp(a_{1,i})/\sum_{j} exp(a_{1,j})a ^1 ,i =e x p (a 1 ,i )/j ∑e x p (a 1 ,j )
变形金刚——Transformer入门刨析详解

\qquad接下来把a ^ 1 , j \hat a_{1,j}a ^1 ,j 与对应的v j v^j v j分别做乘积最后求和得出第一个输出b 1 b_1 b 1 ，同理可得到所有b i b_i b i 。
b 1 = ∑ i n a ^ 1 , i v i b^1 =\sum_{i}^n \hat a_{1,i}v^i b 1 =i ∑n a ^1 ,i v i

\qquad那么到这里就可以看出输出b1是综合了所有的输入xi信息，同时这样做的优势在于——当b1只需要考虑局部信息的时候（比如重点关注x1,x2就行了），那么它可以让a ^ 1 , 3 \hat a_{1,3}a ^1 ,3 和a ^ 1 , 4 \hat a_{1,4}a ^1 ,4 输出的值为0就行了。

那么self attention是这么做平行化的呢？

咱们复习一下前面说到的q、k、v的计算：
\qquad \qquad \qquad \qquad \qquad q i = W q a i \ q^i=W^qa^i q i =W q a i
\qquad \qquad \qquad \qquad \qquad k i = W k a i \ k^i=W^ka^i k i =W k a i
\qquad \qquad \qquad \qquad \qquad v i = W v a i \ v^i=W^va^i v i =W v a i
\qquad因为q 1 = w q a 1 \ q^1=w^qa^1 q 1 =w q a 1，那么根据矩阵运算原理，我们将a 1 、 a 2 、 a 3 、 a 4 \ a^1、a^2、a^3、a^4 a 1 、a 2 、a 3 、a 4串起来作为一个矩阵I与w q \ w^q w q相乘可以得到q 1 、 q 2 、 q 3 、 q 4 \ q^1、q^2、q^3、q^4 q 1 、q 2 、q 3 、q 4构成的矩阵Q。同理可得k i 、 v i \ k^i、v^i k i 、v i的矩阵K、V。

然后我们再回忆观察一下a 1 , i \ a_{1,i}a 1 ,i 的计算过程(为方便理解，此处省略d \sqrt d d )：
\qquad \qquad \qquad a 1 , 1 = k 1 ⋅ q 1 \ a_{1,1}=k^1·q^1 a 1 ,1 =k 1 ⋅q 1 \qquad a 1 , 2 = k 2 ⋅ q 1 \ a_{1,2}=k^2·q^1 a 1 ,2 =k 2 ⋅q 1
\qquad \qquad \qquad a 1 , 3 = k 3 ⋅ q 1 \ a_{1,3}=k^3·q^1 a 1 ,3 =k 3 ⋅q 1 \qquad a 1 , 4 = k 4 ⋅ q 1 \ a_{1,4}=k^4·q^1 a 1 ,4 =k 4 ⋅q 1
\qquad我们可以发现计算都是用q 1 \ q^1 q 1去乘以每个k i \ k^i k i得出a 1 , i \ a_{1,i}a 1 ,i ，那么我们将k i \ k^i k i叠加起来与q 1 \ q^1 q 1相乘得到一列向量a 1 , i \ a_{1,i}a 1 ,i (i=1,2,3,4)。然后你再加上所有的q i \ q^i q i就可以得到整个a i , j \ a_{i,j}a i ,j 矩阵。最后对a i , j \ a_{i,j}a i ,j 的每一列做一个soft-max就得到 a ^ i , j \hat a_{i,j}a ^i ,j 矩阵。

最后再把a ^ i , j \hat a_{i,j}a ^i ,j 与所有v i \ v^i v i构成的矩阵V相乘即可得到输出。

\qquad在这里我们对输入I到输出O之间做的事情做一个总结：我们先用I分别乘上对应的W i \ W^i W i得到矩阵Q,K,V，再把Q与K T \ K^T K T相乘得到矩阵A，再对A做soft-max处理得到矩阵KaTeX parse error: Expected group after ‘^’ at position 7: \hat A^̲，最后再将KaTeX parse error: Expected group after ‘^’ at position 7: \hat A^̲与V相乘得到输出结果O。整个过程都是进行矩阵乘法，都可以使用GPU加速。

; self-attention的变形——Multi-head Self-attention

\qquadMulti-head Self-attention跟self-attention一样都会生成q、k、v，但是Multi-head Self-attention会再将q、k、v分裂出多个q 1 , 2 \ q^{1,2}q 1 ,2（这里举例分裂成两个），然后它也将q跟k去进行相乘计算，但是只跟其对应的k、v进行计算，比如q 1 , 1 \ q^{1,1}q 1 ,1只会与k 1 , 1 \ k^{1,1}k 1 ,1、k 2 , 1 \ k^{2,1}k 2 ,1进行运算，然后一样的乘以对应的v得到输出b 1 , 1 \ b^{1,1}b 1 ,1。
\qquad \qquad \qquad q 1 , 1 = W q , 1 q 1 \ q^{1,1}=W^{q,1}q^1 q 1 ,1 =W q ,1 q 1 \qquad \qquad q 1 , 2 = W q , 2 q 1 \ q^{1,2}=W^{q,2}q^1 q 1 ,2 =W q ,2 q 1

\qquad对于b i , 1 \ b^{i,1}b i ,1再进行一步处理就得到我们在self-attention所做的一步骤的输出b i \ b^i b i。
变形金刚——Transformer入门刨析详解

那么这个Multi-head Self-attention设置多个q,k,v有什么好处呢？
\qquad举例来说，有可能不同的head关注的点不一样，有一些head可能只关注局部的信息，有一些head可能想要关注全局的信息，有了多头注意里机制后，每个head可以各司其职去做自己想做的事情。

Positional Encoding
\qquad根据前面self-attention介绍中，我们可以知道其中的运算是没有去考虑位置信息，而我们希望是把输入序列每个元素的位置信息考虑进去，那么就要在a i \ a^i a i这一步还有加上一个位置信息向量e i \ e^i e i，每个e i \ e^i e i都是其对应位置的独特向量。——e i \ e^i e i是通过人工手设（不是学习出来的）。

最后挂上一张来自原论文的效果图，体验一下transformer的强大：

Original: https://blog.csdn.net/m0_67505927/article/details/123209347
Author: 哪有灬平凡？
Title: 变形金刚——Transformer入门刨析详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/716402/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【知识图谱】构建《射雕三部曲》图谱（CSV文件导入）

构建《射雕三部曲》图谱下载 CSV 文件 LOAD CSV 构建 * load csv 文件构建节点构建关系 neo4j-admin import 构建导入csv文件 * …

人工智能 2023年6月1日
00101
目标检测遮挡问题及解决方案汇总

部分内容来自：目标检测之小目标检测和遮挡问题_AndyJ的学习之旅-CSDN博客_遮挡目标检测有遮挡的目标检测Repulsion Loss: Detecting Pedestr…

人工智能 2023年5月26日
0090
人工智能导论(11)——群智能(Swarm Intelligence)

文章目录一、概述二、重点内容三、思维导图四、重点知识笔记 * 群智能算法 – 群智能算法主要流程群智能优化算法原理群智能主要研究内容蚁群算法粒子…

人工智能 2023年6月24日
0057
Ubuntu22.04 下安装驱动、CUDA、cudnn以及TensorRT

CUDA驱动和CUDA Toolkit对应版本可查阅官方文档。驱动是向下兼容的，其决定了可安装的CUDA Toolkit的最高版本。安装与CUDA Toolkit对应的pyto…

人工智能 2023年7月28日
00110
椭圆曲线离散对数问题以及求解

椭圆曲线定义设Fp 表示具有p个元素的有限域，p > 3为一个素数。椭圆曲线上的有理点集合E(Fp)定义为判别式 = 4a3 + 27b2 != 0(平滑无奇点) ; 点…

人工智能 2023年7月28日
0080
Python中numpy.array、list和data.frame数据类型之间的转化

这三个数据格式之间的相互转化，需要使用到pandas和numpy这两个包中的相应方法，在此需要先引用需要的包。 import pandas as pd import numpy…

人工智能 2023年7月8日
0060
NSGA2、NSGA-II实现、基于分配的多目标进化-Python

算法流程： P：父辈种群Q：子辈种群R：P并上Q -》之后依据偏序关系进行排序在实际上，能在原来数组上改就到原来数组上改，要产生新的那就产生新的，分配一次内存时间应该影响不大，…

人工智能 2023年6月4日
0087
使

文章目录问题 * PaddlePaddle GPU安装后，检查出错安装CUDA * 下载CUDA 下载历史版本下载检查CUDA是否安装成功安装CUDNN * 安装哪个版本…

人工智能 2023年5月26日
00159
LSTM股票价格预测

ID：399899注：这里使用的数据源是Tushare LSTM股票价格预测实验实验介绍使用LSTM进行股票价格的预测，用到的框架主要包括：TensorFlow2.0，主要用…

人工智能 2023年5月23日
00149
如何处理在Framework中的计算图构建和优化过程

问题背景在深度学习中，计算图是一种常见的图结构，用于表示和处理模型的计算过程。而在深度学习框架中，通常会提供一套API来支持计算图的构建和优化。本文将介绍如何处理在Framewo…

人工智能 2024年1月1日
0035
机器学习进阶之时域/时间卷积网络 TCN 概念+由来+原理+代码实现

TCN 从”阿巴阿巴”到”巴拉巴拉” TCN的概念（干嘛来的！能解决什么问题） TCN的父母（由来） TCN的原理介绍上代码！ 1…

人工智能 2023年5月31日
0087
用lombok插件，驼峰属性第一个是一个字母的，属性没有接收到值，使用@JsonProperty解决（工作遇到的坑）

一、实体 import lombok.*; /** * 用户实体 * * @author caden * @since 2022-11-12 * */ @Getter @Sette…

人工智能 2023年6月29日
0085
pytorch余弦退火学习率CosineAnnealingLR的使用

一、背景再次使用CosineAnnealingLR的时候出现了一点疑惑，这里记录一下，其使用方法和参数含义后面的代码基于 pytorch 版本 1.1, 不同版本可能代码略有差距…

人工智能 2023年7月20日
0065
什么是非参数检验？应该如何操作与分析？

检验问题可划分为两大类：参数检验和非参数检验，其中总体分布的具体函数形式的前提下，只是其中若干个参数未知称为参数检验，否则称为非参数检验。一、研究场景非参数检验用于研究定类数据…

人工智能 2023年7月15日
00131
python爬虫数据分析浅尝试(爬取同学的网站)

目录前言：声明：结果展示：用到的库：初始化：代码部分及解释：具体实现： 1.导入/更新： 2.爬虫： 3.词频统计： 4.词云绘制：鸣谢：前言：声明：首先，一…

人工智能 2023年6月11日
0076
[附源码]计算机毕业设计JAVAjsp游乐园管理系统

[附源码]计算机毕业设计JAVAjsp游乐园管理系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+…

人工智能 2023年6月27日
0099

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

变形金刚——Transformer入门刨析详解

; self attention

那么self attention是这么做平行化的呢？

; self-attention的变形——Multi-head Self-attention

大家都在看