逐句解析点积注意力pytorch源码（配图解）

2023年7月23日上午6:01 • 人工智能 • 阅读 56

前言

结合pytorch源码和原始论文学习Scaled Dot-Product Attention的原理。

原论文链接：Attention Is All You Need
原论文中的网络结构如下图所示。

; 计算公式

源码（pytorch）


def _scaled_dot_product_attention(
    q: Tensor,
    k: Tensor,
    v: Tensor,
    attn_mask: Optional[Tensor] = None,
    dropout_p: float = 0.0,) -> Tuple[Tensor, Tensor]:

    B, Nt, E = q.shape
    q = q / math.sqrt(E)

    attn = torch.bmm(q, k.transpose(-2, -1))

    if attn_mask is not None:
        attn += attn_mask

    attn = softmax(attn, dim=-1)

    if dropout_p > 0.0:
        attn = dropout(attn, p=dropout_p)

    output = torch.bmm(attn, v)
    return output, attn

下面逐句解读。

第一步：实现scaled

q = q / math.sqrt(E)

其中的 math.sqrt(E)对应计算公式中的d k \sqrt{d_k}d k 。

根据源码，E（也就是d k d_k d k ）代表Q、K、V三个张量中特征（embedding）的维度。

关于Q、K、V的形状的代码注释。

q: :math: (B, Nt, E) where B is batch size, Nt is the target sequence length,
and E is embedding dimension.
key: :math: (B, Ns, E) where B is batch size, Ns is the source sequence length,
and E is embedding dimension.
value: :math: (B, Ns, E) where B is batch size, Ns is the source sequence length,
and E is embedding dimension.

在论文中对Q、K、V维度的说明：

The input consists of queries and keys of dimension d k d_k d k , and values of dimension d v d_v d v .

为什么要除以 d k \sqrt{d_k}d k ？

原论文中的解释如下：

While for small values of d k d_k d k the two mechanisms perform similarly, additive attention outperforms dot product attention without scaling for larger values of d k d_k d k . We suspect that for large values of d k d_k d k , the dot products grow large in magnitude, pushing the softmax function into regions where it has extremely small gradients . To counteract this effect, we scale the dot products by 1 d k \frac{1}{\sqrt{d_k}}d k 1

简单解释就是：当 d k d_k d k 较大时（也就是Q和K的维度较大时），dot-product attention的效果就比加性注意力差。作者推测，对于较大的d k d_k d k 值，点积（Q和K的转置的点积）的增长幅度很大，进入到了softmax函数梯度非常小的区域。

李沐老师在Transformer论文逐段精读【论文精读】中对这部分的解读摘录如下：

当你的dk不是很大的时候，除不除都没关系。
但是当dk很大的时候，也就是说两个向量比较长的时候，那么你做点积的时候，这些值呢，就可能会比较大，但也可能是比较小。
当你的值相对来说比较大的时候呢，你之间的相对的差距就会变大，就导致说，你值最大的那个值做出来softmax就会更加靠近1。剩下那些值呢就会更加靠近0。就是你的值更加向两端靠拢。当你出现这个样子的时候，你算梯度的时候，你发现梯度比较小。
因为softmax最后的结果是什么？就是我希望我的预测值啊，置信的地方尽量靠近1，不置信的地方尽量靠近0。这样子我的收敛就差不多了。这时候你的梯度就会变得比较小，那你就会跑不动。

softmax公式
s o f t m a x ( x i ) = e x i ∑ j = 1 K e x j f o r i = 1 , 2 , … , K softmax(x_i) = \frac{e^{x_{i}}}{\sum_{j=1}^K e^{x_{j}}} \ \ \ for\ i=1,2,\dots,K s o f t m a x (x i )=∑j =1 K e x j e x i f o r i =1 ,2 ,…,K

更详细计算建议参考https://blog.csdn.net/qq_37430422/article/details/105042303

为什么先除以 d k \sqrt{d_k}d k ？

为什么不按照公式，先计算Q K T QK^T Q K T矩阵乘法，再除以d k \sqrt{d_k}d k 呢？
从数值计算的角度考虑，要尽量控制数值的大小，这样可以保持浮点数的精度。
也就是说，先计算除法，后面计算矩阵乘法的时候，误差就更小。

第二步：通过点积（dot product）计算注意力分数


    attn = torch.bmm(q, k.transpose(-2, -1))

计算q和k T k^T k T的乘积。bmm是批量矩阵乘法。
其中 k.transpose(-2, -1)表示交换k的倒数第1和倒数第2维度，保持批量维度不变。

第三步：mask

    if attn_mask is not None:
        attn += attn_mask

在解码阶段，要限制未来的数据影响，只保留当前时刻之前的数据，所以一般加上一个负无穷大的数，这样后面计算softmax的时候，相应的结果就是0，起到mask的效果。

第四步：计算注意力权重

attn = softmax(attn, dim=-1)

经过softmax之后，attn就称为注意力权重了，因为归一化了。

其中的dim=-1，表示对最后一个维度进行softmax，也就是词向量维度。

第五步：dropout

    if dropout_p > 0.0:
        attn = dropout(attn, p=dropout_p)

注：Transformer原始论文中的 dropout_p=0.1。

第六步：加权平均


    output = torch.bmm(attn, v)
    return output, attn

V和注意力权重相乘，并返回结果。

图解QKV矩阵乘法

注意：这里不再使用源码中矩阵shape的符号。

Q是n乘以dk的矩阵，代表多个Querys，理解为每行一个query向量。
K是m乘以dk的矩阵，代表多个Keys，理解为每行一个key向量。
Q和K的转置相乘，得到的矩阵中每一行（橙色的行）代表某一个query向量和所有key向量之间的相似度，也就是一个query向量和所有key向量点积。
灰色矩阵实际上就是相关度矩阵，注意力分数矩阵。

V是m乘以dv的矩阵，代表多个Values，每行代表一个value向量。
橙色向量左乘V，代表V的行向量按照橙色向量的权重进行线性组合，得到蓝色向量。

Original: https://blog.csdn.net/m0_48742971/article/details/123392039
Author: coder1479
Title: 逐句解析点积注意力pytorch源码（配图解）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/710179/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

华为云原生之数据仓库服务GaussDB(DWS)的深度使用与应用实践

一、GaussDB（DWS）简介 ① 什么是 GaussDB（DWS）？数据仓库服务 GaussDB(DWS) 是一种基于华为云基础架构和平台的在线数据处理数据库，提供即开即用、…

人工智能 2023年7月15日
00113
d3 – 建立力引导图将知识图谱可视化 (一)

本文要实现的功能与这个网页比较类似: KGBuilder知识图谱可视化使用到的插件为: d3没有采用echarts等实现的原因是: echarts比较死板, 有些需求不能实现, …

人工智能 2023年6月1日
0084
【OpenCV 例程 300篇】249. 特征描述之视网膜算法（FREAK）

『youcans 的 OpenCV 例程300篇 – 总目录』【youcans 的 OpenCV 例程 300篇】249. 特征检测之视网膜算法（FREAK） 1. …

人工智能 2023年7月31日
0097
如果再来一次，你还会选择做程序员吗？

我本科是渣渣二本，毕业找不到工作，奋而读了研究生，研究生是个985，现在毕业五年了，出过书、创过业，现在在大厂做个小领导，就我本身经历谈下这个问题吧，希望能通过反思的我历程，能给…

人工智能 2023年7月29日
0081
实战Transformer在NLP和医学图像分割领域的应用

个人简介：李响Superb，CSDN百万访问量博主，普普通通男大学生，深度学习算法、医学图像处理专攻，偶尔也搞全栈开发，没事就写文章。本文版权归DataFountain和作者本人…

人工智能 2023年5月28日
0081
【SLAM】LIO-SAM解析——IMU预计分IMU-Preintegration(4)

知识点：如何使用GTSAM，从而输出一个丝滑的位姿；已知上一帧lidar里程计(频率低)，当前帧lidar里程计(频率低)，两个lidar帧之间的IMU数据，如何利用图优化的方式优…

人工智能 2023年6月2日
00112
边缘计算网关是什么？边缘计算有哪些应用场景？（边缘计算网关特点）

5G时代，你还不了解边缘计算网关吗？要知道什么是边缘计算网关，首先要了解什么是边缘计算，在了解边缘计算的具体应用领域，这样便了解了边缘计算网关的相关用例。下面了解一下什么是边缘计算…

人工智能 2023年6月4日
0090
【python】自动填写问卷星问卷及提交

前言：问卷是很好的网络调查方式之一，近年来，问卷星被广泛应用于各方面的调查。本文介绍了利用python代码自动填写问卷星基本题目，拥有自动填写、解决智能验证、批量提交问卷等功能。 …

人工智能 2023年7月4日
0070
在AI算法中，什么是模型评估

问题：在AI算法中，什么是模型评估？详细介绍：模型评估是指在机器学习和人工智能领域中，对训练好的模型进行性能评估的过程。在训练模型时，我们使用了一部分数据作为训练集，并使用训练…

人工智能 2024年1月1日
0060
OpenCV学习笔记02–图像像素处理–二值图像、灰度图像、彩色图像像素的处理、numpy.array中的对应的函数

目录（一）灰度图像像素处理（二）彩色图像像素处理（三）numpy.array库在图像处理中的应用（四）查看图像的属性信息接着笔记01继续总结，当我们读取一幅图像的时候，一…

人工智能 2023年6月22日
00111
用c++ PCL库和Opencv库实现将点云数据转化成图片形式

用c++ PCL库和Opencv库实现将点云数据转化成图片形式自己的毕业设计与点云相关，现在想要将得到的点云切割数据转化为图片形式，然后进行opencv的图像处理，但是苦于找了很…

人工智能 2023年7月18日
0055
【数据挖掘】数据样本的归一化处理方法

1、为什么要进行数据样本归一化？当我们对数据集进行处理和分析时，不同数据的比较需要进行包括量纲、量纲单位在内的各项内容进行数据统一标准化处理，以建立各类数据的可比性。量纲：物理量…

人工智能 2023年7月17日
0053
机器视觉系列（六）——照明部分

系列文章目录机器视觉系列（一）——概述机器视觉系列（二）——机械部分机器视觉系列（三）——电气部分机器视觉系列（四）——相机部分机器视觉系列（五）——镜头部分文章目录系列文章…

人工智能 2023年5月26日
0098
GPU云服务器平台对比！哪家最值得推荐？

对象是做人工智能NLP的，让我也有一些兴趣想学一下，做个简单的小应用玩玩，但是macbook显然不适合跑模型，没有一块好的GPU真是没法学啊！知乎上看到说自己学(无人指导) + 没…

人工智能 2023年5月26日
00116
【五分钟会，半小时懂】卡尔曼滤波器(Kalman Filter)—目标跟踪（含源码）

目录系列文章效果展示卡尔曼滤波器的简单介绍一、公式解释二、卡尔曼增益的推导三、第一个例子四、第二个例子系列文章【目标跟踪】卡尔曼滤波器(Kalman Filter…

人工智能 2023年5月28日
00109
pytorch 层标准化 LayerNorm 的用法

目录 1、为什么要标准化（理解的直接跳过到这部分） 2、LayerNorm 解释 3、举例-只对最后 1 个维度进行标准化 4、举例-对最后 D 个维度进行标准化 1、为什么要标准…

人工智能 2023年7月20日
0067

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

逐句解析点积注意力pytorch源码（配图解）

为什么要除以 d k \sqrt{d_k}d k ​​ ？

为什么先除以 d k \sqrt{d_k}d k ​​ ？

大家都在看

为什么要除以 d k \sqrt{d_k}d k ？

为什么先除以 d k \sqrt{d_k}d k ？