神经网络到底在关注哪里？注意力机制与Transformer

2023年7月12日下午6:57 • 人工智能 • 阅读 65

一、注意力机制介绍

1.浅谈注意力

注意力是人类学习中必不可少的要素，比如说我们去阅读一个文章，或者试着去理解一本书中作者想表达的意思，我们通常在阅读过程中会把注意力放在比较重要的环节上，而不是去把每个细节都会一一记住。人的记忆是有限的，抓重点的学习方式往往会得到事半功倍的效果。

那既然注意力这么重要，我们有没有办法把它用在AI应用中呢？答案是有的，那就是注意力机制。

注意力机制在过去几年取得了飞速的发展，而且已经成为很多应用的标配。把注意力机制放到神经网络中，其实就是让机器学习选择性地去学习，同时知道如何把注意力放在更重要的事情上，比如对于一段文字来讲，理解其含义可能只需要把重点放在几个核心的单词上。

2.注意力机制的重要性

在Attention诞生之前，已经有CNN和RNN及其变体模型了，那为什么还要引入attention机制？主要有两个方面的原因，如下：

（1） 计算能力的限制：当要记住很多”信息”，模型就要变得更复杂，然而目前计算能力依然是限制神经网络发展的瓶颈。

（2） 优化算法的限制：LSTM只能在一定程度上缓解RNN中的长距离依赖问题，且信息”记忆”能力并不高

注意力机制在不同应用下的使用也大同小异。对于图片来讲，注意力需要放到某一个区域上; 对于文本来讲，注意力需要放在某几个单词上; 另外，这里所讲的自注意力机制跟传统的注意力机制有所不一样，能够更有效地解决梯度，并行化的问题。

二、计算机视觉中的注意力机制

1.看图说话

看图说话是指，根据给定的图片生成一段文本描述，这个描述就是对于图片的理解。实际上，这个问题可以理解为把一个图片转换成文本，图片理解这块可采用CNN模型，文本生成模块可采用LSTM模块。

2.存在的问题

可以看到看图说话时，生成的文本依赖于全部图像的词向量，实际上并不需要这样，因为每一个文本其实对应图片的某一部分。

基于以上的问题，我们想把注意力机制加入到模型当中。对于看图说话，一个核心思想：对于每一个生成的单词实际上我们只需要关注图片中某一个模块就可以了。那这种注意力如何获取的？一种简单的操作方式是，把图片分成多个区域，然后学出针对于每个区域的权重。

3.加入注意力机制

可以看到加入注意力机制后，还可以提升模型的解释性，也就是说生成文本的时候能够关注到其对应的图像区域是否正确。

三、序列模型中的注意力机制

seq2seq根据字面意思来看就是序列到序列，再具体点就是输入一个序列（可以是一句话，一个图片等）输出另一个序列。的用途有很多，比如机器翻译，写诗，作曲，看图写文字等等用途很广泛。

1.Seq2Seq的一些问题

由上图可知，虽然自然语言处理任务中引入了LSTM等一系列改进模型，但依然会因为长期依赖带来梯度消失问题，而且由于编码器最终学习生成一个向量，用这个向量来表示之前的一系列文本，这会使得该向量学习表示起来十分困难。

所以seq2seq存在以下两个问题：

梯度消失问题。
瓶颈问题。

所以我们可以将注意力机制引入到seq2seq。

2.Seq2Seq加入注意力机制

这些黄色的深浅代表当翻译每个词的注意力的分配。

Encoder用的是是双向RNN，当RNN单元循环回来的时候都会有一个输出给了你将要翻译的词对应的attend，而此时肯定是它的最下方的词应该是注意力最集中的，所以它对应的权重肯定是最大的。

这里的权重分配公式为：

从最上面下来的是

是第

个Encoder隐层出来的记忆单元。

所有的分打出来后，要做下归一化：

这个跟Softmax差不多。

然后对他们进行求和传送给

：

这个注意力机制大大提高了机器翻译的能力当然也包括其他的领域。

四、自注意力机制与Transformer

1.自注意力机制介绍

self attention是注意力机制中的一种，也是transformer中的重要组成部分。

自注意力机制是注意力机制的变体，其减少了对外部信息的依赖，更擅长捕捉数据或特征的内部相关性。

自注意力机制在文本中的应用，主要是通过计算单词间的互相影响，来解决长距离依赖问题。

自注意力机制的计算过程：

1.将输入单词转化成嵌入向量；

2.根据嵌入向量得到q，k，v三个向量；

3.为每个向量计算一个score：score =q . k ；

4.为了梯度的稳定，Transformer使用了score归一化，即除以

；

5.对score施以softmax激活函数；

6.softmax点乘Value值v，得到加权的每个输入向量的评分v；

7.相加之后得到最终的输出结果z ：z= v。

2. 自注意力机制细节

对于一段文本来讲，自注意力机制可以计算每两个单词之间的关系，并根据这个关系来理解单词在上下文中的意思。通过上述可视化方式，我们也可以观察到这种关系。另外，这种方式的一个缺点在于复杂度会比较高，特别是对于很长的文本。

3.位置编码

在文本中，单词之间是有顺序的，但上面提到的self-attention并没有把位置信息考虑了进来，只是计算了每两个单词之间的关系。那我们又如何把位置信息融合到模型当中呢?在Transformer中，我们在输入端额外地加入了位置向量。

总结

注意力机制的优点

参数少：相比于 CNN、RNN ，其复杂度更小，参数也更少。所以对算力的要求也就更小。
速度快：Attention 解决了 RNN及其变体模型不能并行计算的问题。Attention机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。
效果好：在Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。

本文是从零开始学NLP 系列文章第十四篇，希望小伙伴们多多支持，互相交流。

参考：

贪心学院nlp

基于注意力机制的seq2seq网络

Original: https://blog.csdn.net/kobepaul123/article/details/119378461
Author: Yunlord
Title: 神经网络到底在关注哪里？注意力机制与Transformer

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/688202/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《人工智能-机器学习》数据预处理和机器学习算法（以企鹅penguins数据集为例）

文章目录一、数据预处理 * 1 内容和目标： 2 加载和分析数据 – 2.1 导入基本库和加载数据 2.2 分析数据 3 数据清洗 – 3.1 重复值处理…

人工智能 2023年7月26日
0056
Python数据清洗

目录应用目标思路分析 * main函数异常值处理功能函数 – + 3σ原则箱形图异常值置空+ 空值填充功能函数 – + 异常值置空空值填充读写…

人工智能 2023年7月18日
0051
激光雷达与自动驾驶详解

激光雷达与自动驾驶详解参考文献链接https://mp.weixin.qq.com/s/Gk4JJZapKHXZE2AjliR8_Ahttps://mp.weixin.qq.com…

人工智能 2023年6月11日
0085
【Python计量】Logit模型

文章目录一、离散选择模型二、Logit模型三、Logit模型的python实现——采用statsmodels * （一）案例一（二）案例二此文章首发于微信公众号Pytho…

人工智能 2023年6月16日
0084
Isaac-gym(1): 安装及官方demo内容

希望和正在或者想要学习使用ISAAC-GYM的朋友一起有一个讨论群，尝试互帮互助，交流学习内容~目前刚开始尝试，不知道能不能建立起来，如果有意向请私戳！！——2023.02 PS:…

人工智能 2023年7月21日
0080
30、Nio（select（处理用户端断开（有read事件）））

Nio（select（处理用户端断开（有read事件）））首先我们要有个理解：我们的客户端不管是强制停止，还是正常断开都会触发一个read事件（只是正常断开的read返回的值是-…

人工智能 2023年6月29日
00103
指定区域内随机填充圆之matlab实现

之前有伙伴在QQ交流群里询问如何在matlab中编程实现上图所示，刨去图中所有修饰，这个听起来相对高级的颗粒堆叠非均相模型实则就是在矩形区域随机填充不同半径大小的圆。再更进一步抽象…

人工智能 2023年7月18日
0050
[Medical Image] 医学图像处理中的数据读写

医学图像处理中的数据读写常见的医学图像的格式不管格式如何变化，对于医学图像而言，最终读取到内容中的数据就是图像的强度值信息，就类似自然图像的RGB表示法一样。这里叫做强度值，因…

人工智能 2023年6月4日
00115
Disco Diffusion 快速入门

Disco Diffusion 快速入门简介快速开始进阶使用 * 修改prompt 给定指导图像修改基础参数运行参数设置运行建议模型设置参数详情简介 Disco …

人工智能 2023年7月26日
0068
目标检测算法——YOLOv5/YOLOv7改进之结合ConvNeXt结构（纯卷积|超越Swin）

>>>深度学习Tricks，第一时间送达<<< 论文题目：A ConvNet for the 2020s 纯卷积主干网络！可与大火的分层视觉Tr…

人工智能 2023年7月29日
0099
聚类–DBSCAN

1、什么是DBSCN DBSCAN也是一个非常有用的聚类算法。它的主要优点:它不需要用户先验地设置簇的个数，可以划分具有复杂形状的簇，还可以找出不属于任何簇的点。 DBSCAN比…

人工智能 2023年6月19日
0081
决策树之基尼指数理解

基尼指数和信息熵都是用来描述系统混乱度的量数学形式不一样，干的事是一样的不纯度（impurity）–GINI系数：（不纯度就是混乱度）公式例子（与信息熵干的是一…

人工智能 2023年6月25日
0060
教你判断一个 DataFrame 中数据是否在另一个 DataFrame 中

教你判断一个 DataFrame 中数据是否在另一个 DataFrame 中 * – 创作背景 – 问题分析 – 问题解决 – 结尾…

人工智能 2023年6月11日
0087
Graphene图数据建模工具

Graphene图数据建模工具 Graphene图数据建模工具 * 一、Graphene是什么？二、谁可以使用它？三、为什么需要这样的工具？四、核心功能五、演示界面六、如…

人工智能 2023年6月1日
0087
人工智能算法一&逻辑回归

简介逻辑回归学习笔记公式推导人工智能算法一&逻辑回归概念引入特殊处理二分类两种分类的概率加起来为一。二级分类函数推导如果d大于0那么f=1,d 但是上面的情况…

人工智能 2023年6月16日
0051
解决：RuntimeError: CUDA out of memory. Tried to allocate 128.00 MiB (GPU 0； 2.00 GiB total capacity； 1

1. 问题 2. 分析 3. 解决问题训练模型时报错：RuntimeError: CUDA out of memory. Tried to allocate 128.00 Mi…

人工智能 2023年7月14日
00130

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

神经网络到底在关注哪里？注意力机制与Transformer

1.浅谈注意力

2.注意力机制的重要性

1.看图说话

2.存在的问题

3.加入注意力机制

1.Seq2Seq的一些问题

2.Seq2Seq加入注意力机制

1.自注意力机制介绍

2. 自注意力机制细节

3.位置编码

大家都在看