经典注意力机制

2023年6月4日上午6:22 • 人工智能 • 阅读 70

2. 注意力机制的正式引入

前边我们通过机器翻译任务介绍了Attention机制的整体计算。但是还有点小尾巴没有展开，就是那个注意力打分函数的计算，现在我们将来讨论这个事情。但在讲这个函数之前，我们先来对上边的Attention机制的计算做个总结，图2详细地描述了Attention机制的计算原理。

图2 Attention机制图

假设现在我们要对一组输入 H =[h 1 ,h 2 ,h 3 ,…,h n ]H=[h1,h2,h3,…,hn]使用Attention机制计算重要的内容，这里往往需要一个查询向量 q q(这个向量往往和你做的任务有关，比如机器翻译中用到的那个 q 2 q2 ) ，然后通过一个打分函数计算查询向量 q q 和每个输入 h i hi 之间的相关性，得出一个分数。接下来使用softmax对这些分数进行归一化，归一化后的结果便是查询向量 q q在各个输入 h i hi上的注意力分布 a =[a 1 ,a 2 ,a 3 ,…,a n ]a=[a1,a2,a3,…,an]，其中每一项数值和原始的输入H =[h 1 ,h 2 ,h 3 ,…,h n ]H=[h1,h2,h3,…,hn]一一对应。以 a i ai 为例，相关计算公式如下：

[{a_i} = softmax(s({h_i},q)) = \frac{{exp(s({h_i},q))}}{{\sum\limits_{j = 1}^n e xp(s({h_j},q))}}]

最后根据这些注意力分布可以去有选择性的从输入信息 H H 中提取信息，这里比较常用的信息提取方式，是一种”软性”的信息提取（图2展示的就是一种”软性”注意力），即根据注意力分布对输入信息进行加权求和，最终的这个结果 c o n t e x t context 体现了模型当前应该关注的内容：

[context = \sum\limits_{i = 1}^n {{a_i}} \cdot {h_i}]

现在我们来解决之前一直没有展开的小尾巴-打分函数，它可以使用以下几种方式来计算：

加性模型: [s(h,q) = {v^T}tanh(Wh + Uq)]
点积模型: [s(h,q) = {h^T}q]
缩放点积模型: [s(h,q) = \frac{{{h^T}q}}{{\sqrt D }}]
双线性模型: [s(h,q) = {h^T}Wq]

以上公式中的参数 W W、U U和v v均是可学习的参数矩阵或向量，D D为输入向量的维度。下边我们来分析一下这些分数计算方式的差别。

加性模型引入了可学习的参数，将查询向量 q q 和原始输入向量 h h 映射到不同的向量空间后进行计算打分，显然相较于加性模型，点积模型具有更好的计算效率。

另外，当输入向量的维度比较高的时候，点积模型通常有比较大的方差，从而导致Softmax函数的梯度会比较小。因此缩放点积模型通过除以一个平方根项来平滑分数数值，也相当于平滑最终的注意力分布，缓解这个问题。

最后，双线性模型可以重塑为 [s({h_i},q) = {h^T}Wq = {h^T}({U^T}V)q = {(Uh)^T}(Vq)]

，即分别对查询向量 q q 和原始输入向量 h h进行线性变换之后，再计算点积。相比点积模型，双线性模型在计算相似度时引入了非对称性。

Original: https://www.cnblogs.com/beyoncewxm/p/16625206.html
Author: xiaomin_beyonce
Title: 经典注意力机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/566437/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自动驾驶之分割论文、代码合集

文章目录 2021 * YOLOP: You Only Look Once for Panoptic Driving Perception （鸟瞰图）FIERY: Future I…

人工智能 2023年6月2日
0078
图像传感器噪声建模与分析

图像传感器在做信号采集的时候往往会引入噪声，在采集到的raw图像中能够拿到没有经过任何处理的传感器信号，因此对于传感器噪声进行分析与建模有助于我们认识传感器噪声，从而帮助我们设计r…

人工智能 2023年6月10日
0060
GAN(生成对抗网络)Matlab代码详解

这篇博客主要是对GAN网络的代码进行一个详细的讲解：首先是预定义： clear; clc; %%%clc是清除当前command区域的命令,表示清空,看着舒服些。而clear用…

人工智能 2023年6月23日
0058
bert_wwm_ext_pytorch +keras+tensorflow 版本搭配

在做深度学习时候很多小白会遇到环境得问题下面我们给出一个基于cpu得 python 3.6得环境包含 tensorflow Keras torch torchvision 20…

人工智能 2023年5月26日
0063
点云配准–gicp原理与其在pcl中的使用

文章目录 gicp统一模型（Generalized-ICP） plane to plane ICP(gicp：相对于点到点和点到面加入概率模型（协方差阵）) PCL中GICP代码应…

人工智能 2023年7月27日
0063
数据分析pandas

（一）Series （1）结构主要由一组数据与之相关的索引两部分构成。（索引在左，数据在右）（2）多种构造代码方法： 1 . class pandas.Series( data…

人工智能 2023年7月17日
0045
基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配置（二）（超详细版）

先去看第一篇（基础部署篇），看完后，才能接上本篇。基于 docker 搭建 grafana+prometheus 监控资源之mysql+docker+alertmanager配…

人工智能 2023年7月30日
0060
在Anaconda安装Pytorch的详细步骤

1. 打开Anaconda Prompt（在命令行格式下，输入代码，建立pytorch环境、安装pytorch、测试pytorch过程） 2. 创建环境pytorch，使用Pyth…

人工智能 2023年7月3日
0051
pytorch报错（4）forward() missing 1 required positional argument: ‘x‘或者‘NoneType‘ object is not callable

解决：TypeErro: ‘NoneType’ object is not callable/forward()TypeErro: forward() mi…

人工智能 2023年7月5日
0067
【Pytorch】MNIST 图像分类代码 – 超详细解读

【Pytorch】MNIST 图像分类代码 – 超详细解读目录【Pytorch】MNIST 图像分类代码 – 超详细解读前言一、代码框架二、实现代…

人工智能 2023年7月20日
0066
李宏毅2021《机器学习/深度学习》——学习笔记（3）

文章目录 DNN Training Procedure 深度学习简介 * 神经网络是一个函数神经网络中的矩阵运算手写体识别例子 Backpropagation（反向传播）参考…

人工智能 2023年6月15日
0081
免费公测标贝声音理解，检测声音性别和年龄

古有听声辨位，今有听声”识”人。说到声音，其本质是不同频率声音的集合，以波的形式振动（震动）传播。由于每个人的发声器官（口腔、鼻腔、声带）各不相同，因此每个…

人工智能 2023年6月6日
0090
超参数的值对模型性能有什么影响

问题：超参数的值对模型性能有什么影响？介绍在机器学习算法中，超参数是在训练模型之前设置的可调整参数，其值不能通过训练数据进行学习，而是需要手动选择。超参数的选择对模型的性能有着…

人工智能 2024年1月6日
0051
COCO2017 test-dev评估

1.下载COCO2017 test-dev数据集要下载图片test2017/和图片信息文件image_info_test-dev2017.json。 COCO官网： COCO &…

人工智能 2023年7月9日
0089
DataFrame

一、介绍 DataFrame是一个表格型的数据结构，含有一组有序的列。DataFrame可以被看做是Series组成的字典，并且共用一个索引二、案例 1、创建方式 import …

人工智能 2023年6月2日
0064
独家思维导图！让你秒懂李宏毅2020机器学习（一）—— Regression回归

独家思维导图！让你秒懂李宏毅2020机器学习（一）—— Regression回归前言：博主为一名大二本科生，最近决心开始看李宏毅的深度学习系列课程，每学一个阶段决定写篇博客来归纳…

人工智能 2023年6月18日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

经典注意力机制

2. 注意力机制的正式引入

大家都在看