【一起入门NLP】中科院自然语言处理第9课-NLP中的注意力机制（Attention）

2023年5月30日下午9:44 • 人工智能 • 阅读 97

专栏介绍：本栏目为 “2021秋季中国科学院大学胡玥老师的自然语言处理” 课程记录，不仅仅是课程笔记噢～如果感兴趣的话，就和我一起入门NLP吧🥰

注意力结构

输入：Q，K（集合）
输出：Att-V。
Attention要回答的问题是： 对于Q来说，每一个K有多重要？，重要性由输出V描述。

Attention机制主要分为三个步骤，对应上图中的三个阶段。
计算F(Q,Ki)：F为注意力打分函数，本质上该打分函数描述Q和Ki之间的关系，它可以是一个小型的神经网络。常见的打分函数有点积模型，缩放点积模型， 双线性模型等
softmax（f(Q,Ki)）：经过softmax之后会形成一个概率分布，也就是得到了对于Q 各个 Ki 的权重。
加权求和：Att-V = 𝑎1ⅹK1+𝑎2ⅹK2+𝑎3ⅹK3+𝑎4ⅹK4+𝑎5ⅹK5

; 软注意力机制

Soft AM：在求注意力分配概率分布的时候，对于输入句子X中任意一个单词都给出个概率，是个概率分布。

【一起入门NLP】中科院自然语言处理第9课-NLP中的注意力机制（Attention）

硬注意力机制

Hard AM：直接从输入句子里面找到某个特定的单词，然后把目标句子单词和这个单词对齐，而其它输入句子中的单词硬性地认为对齐概率为0。

除此之外还有全局注意力和局部注意力，此处不做过多介绍

; 注意力机制优势与不足

优势：

让任务处理系统找到与当前任务相关显著的输入信息，并按重要性进行处理，从而提高输出的质量。
不需要监督信号，可推理多种不同模态数据之间的难以解释、隐蔽性强、复杂映射关系，对于先验认知少的问题，极为有效。
解决长距离依赖问题，提升任务性能

不足：

对RNN有注意力偏置问题（Coverage机制可以缓解注意力偏置问题）

coverage向量表示过往时刻的所有注意力机制的累加，其告诉模型，输入中哪些部分是已经被注意力关注过的，哪些没有。为了使得模型不过多地关注已经关注过的区域，所以将coverge向量作为下一步的注意力的构成部分，这样下一步生成的注意力分布就会有意识地减少已经关注过的区域的概率。

注意力模块应用

应用场景：

网络中有”求和”的地方都可以用，如图卷积，机器翻译等

优点：

根据不同场景动态选择不同的关注对象
不考虑词之间的距离直接计算依赖关系，提升任务性能

作用：

等权处理 → 加权处理 →提升任务效果

注意力👉编码👈机制

注意力机制可以作为一种编码机制，即：通过建立序列各元素之间的关联关系形成一种序列表示（按元素之间关系对序列进行编码）；或通过不同序列元素之间的关联关系形成不同序列间的融合表示。注意力机制作为编码机制有以下几种：

单一向量编码：将输入序列按规则编码成单一向量表示。如，句表示/篇章表示，某词的上下文表示等
不同序列间编码：将2个序列编码成二者的融合的表示序列，如，匹配任务和阅读理解任务常用的融合层表示
同一序列自编码：利用多头自注意力编码对一个句子编码可以起到类似句法分析器的作用。如Transformer的编码端。

单一向量编码

通过建立序列K各元素与Q之间的关联关系形成单一向量表示（按元素之间关系对序列进行编码）

🍓应用：对序列中某元素的 真正上下文编码

双向RNN语言模型实际是单独的两个相反方向的语言模型，并不能同时观察到上下文。采用注意力机制编码词的上下文是可以同时观察到的真正的上下文。

; 不同序列间编码

将二个序列编码成二者的融合的表示序列（如，匹配任务和阅读理解任务常用的融合层表示）

例：对K序列和Q序列编码

同一序列自编码：

利用多头自注意力编码对一个句子编码可以起到类似句法分析器的作用。

自注意力

Attention(Q,K,V)，其中Q=K=V，其含义为在序列内部做Attention计算，寻找序列内部词与词之间的关联关系。

; 多头注意力

多头（Multi-Head）就是做多次同样的事情（参数不共享），然后把结果拼接。

多头自注意力编码对一个句子编码可以起到类似句法分析器的作用。注意力机制典型应用是Transformer，这部分内容会在后续的博客中更新。

这里有关于Attention的实验：NLP作业四：RNN+Attention实现Seq2Seq中英文机器翻译（Pytorch）【代码+报告】

Original: https://blog.csdn.net/qq_39328436/article/details/122276503
Author: vector<>
Title: 【一起入门NLP】中科院自然语言处理第9课-NLP中的注意力机制（Attention）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545277/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

vue+relation-graphs快速实现组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，树形、力学等关系图

一个Vue的关系图谱组件，使用非常方便可以展示如组织机构图谱、股权架构图谱、集团关系图谱等知识图谱，可提供多种图谱布局，包括树状布局、中心布局、力学布局自动布局等。 1.引入库 …

人工智能 2023年6月1日
0094
pytorch 搭建AlexNet 对花进行分类

目录 1. 介绍 2. 搭建AlexNet网络 3. 准备数据集 4. 训练网络 5. 预测图片 6. code 文章内容参考：霹雳吧啦Wz 的视频教程代码的讲解可以参考之前的文章…

人工智能 2023年7月3日
0089
R语言在vector向量数据末尾追加新的元素（在已知向量末尾添加其它向量数据形成新的向量数据）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月16日
0072
初探三维计算机视觉（三维重建） —— 相机模型 + 双目系统 + 点云模型

初探三维计算机视觉（三维重建）—— 相机模型 + 双目系统 + 点云模型目录 * – 初探三维计算机视觉（三维重建）—— 相机模型 + 双目系统 + 点云模型 &#8…

人工智能 2023年6月18日
0081
目标检测比赛各种tricks（从技术角度出发）

一、训练一个模型，提高分数的大体步骤如下：分析数据集 1、可视化数据，检查数据是否有漏标、错标的问题，数据噪声太多，需要做数据清洗；2、统计训练数据的尺寸、目标框尺寸和长宽比，定…

人工智能 2023年7月9日
0074
Pytorch中torch.full()，torch.ones()和torch.zeros()函数解析

一. torch.full()函数解析 1. 官网链接 torch.full()，如下图所示： ; 2. torch.full()函数解析 torch.full(size, fil…

人工智能 2023年6月16日
0082
知识图谱论文中模型指标MRR，MR，HITS@1，HITS@3，HITS@10的含义

知识图谱论文中模型指标MRR，MR，HITS@1，HITS@3，HITS@10的含义本文将介绍用于衡量知识图谱嵌入（Knowledge Graph Embedding，KGE）模…

人工智能 2023年6月1日
0087
用卷积神经网络训练Cifar10数据集

目录 Cifar10数据集介绍卷积神经网络的搭建完整代码 Cifar10数据集介绍 Cifar10数据提供了5万张3232像素点的十分类彩色图片和标签，用于训练；提供了1万…

人工智能 2023年7月13日
0048
深度学习之图像分类（十八）– Vision Transformer(ViT)网络详解

深度学习之图像分类（十八）Vision Transformer(ViT)网络详解目录 * – 深度学习之图像分类（十八）Vision Transformer(ViT)…

人工智能 2023年7月27日
0090
爬虫-保存数据到Excel

爬虫-保存数据到Excel 利用python库xlwt将抽取的数据datalist写入Excel表格操作步骤：（以utf-8编码）创建一个Excel对象创建一个sheet表 …

人工智能 2023年7月16日
0075
使用 Amazon SageMaker Clarify 解释德甲赛况 xGoals

最激动人心的 Amazon re:Invent 2020 公告 https://www.youtube.com/watch?v=PjDysgCvRqY 之一是新增一项 Amazon…

人工智能 2023年7月17日
0060
ImageNet数据集和ILSVRC2012介绍以及如何通过python使用

介绍 ImageNet是一个图像数据集，关于它的详细介绍可以参考这篇文章：Dataset之ImageNet：ImageNet数据集简介、下载、使用方法之详细攻略。ILSVRC是Im…

人工智能 2023年7月21日
0073
Matlab App Designer 【01】两个APP之间的调用

两个APP之间的调用登陆界面控件及函数 * 控件函数详细步骤 * 1、拖入控件 2、关键函数 3、startupFcn 一些小技巧最终效果结束语参考资料：B站小刘老师…

人工智能 2023年6月20日
0090
【语音识别】WeNet：面向工业落地的E2E语音识别工具

WeNet：面向工业落地的E2E语音识别工具文章目录 WeNet：面向工业落地的E2E语音识别工具 * 一、WeNet语音识别平台搭建 – 1、参考资料 2、快速搭建…

人工智能 2023年5月27日
00191
条件随机场

1 条件随机场概述；条件随机场CRF是自然语言处理的基础模型，广泛应用于中文分词、命名实体识别、词性标注等标注场景。 1.1 条件随机场场景假设有一系列照片，我们要去给打标签，…

人工智能 2023年6月10日
0098
LVQ神经网络基本原理与从聚类角度看本质

原创文章，转载请说明来自《老饼讲解神经网络》:bp.bbbdata.com 目录一、LVQ的网络结构二、LVQ的输出计算方法三、LVQ的本质与意义四、LVQ的网络构建五、…

人工智能 2023年7月14日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31