【自然语言处理】：seq2seq当中的Attention注意力机制

2023年6月6日下午4:50 • 人工智能 • 阅读 92

一.seq2seq机制

传统的seq2seq机制在语言翻译当中使用了两个RNN，一个是encoder，将语言进行编码，另一个是decoder，将我们的得到的语言编码进行解码，解码的过程当中就可以对我们的语言进行翻译成另外一种语言。其机制如下所示：

当然这种机制了，就会出现一定的问题，比如说我们的一个hidden layer就需要捕捉到整句话的所有信息，但是实际上我们有些位于前面的一些信息可能就会有所遗漏，同样的，一些本来应该是比较重要的信息，可能模型觉得并没有那么重要。

例如输入的英文句子是： Tom chase Jerry，目标的翻译结果是： 汤姆追逐杰瑞。在未考虑注意力机制的模型当中，模型认为 汤姆 这个词的翻译受到 Tom， chase 和 Jerry 这三个词的同权重的影响。但是实际上显然不应该是这样处理的， 汤姆 这个词应该受到输入的 Tom 这个词的影响最大，而其它输入的词的影响则应该是非常小的。显然，在未考虑注意力机制的 Encoder-Decoder 模型中，这种不同输入的重要程度并没有体现处理，一般称这样的模型为 分心模型。

因此我们引入注意力机制，也就是attention来改变这个现状。

二.Attention注意力机制的原理

Attention is all you need 是杨力坤的名言。我们来看看attention注意力机制具体是怎么实现的。首先，我们将decoder的第一个hidden layer的值分别和encoder当中的每一个值进行相乘，也就是进行dot product，得到一个attention score。如下图所示：

然后我们对这些dot product的结果使用softmax，得到一个概率分布，众所周知，softmax得到的概率只和为1. 而使用softmax之后的概率分布，我们这里称之为attention distribution。我们发现这些第一个encoder unit的attention score经过softmax之后，其概率。说明当前我们的attention，注意力主要集中在了第一个encoder unit上。机器的主要注意力在于翻译当前这个unit所对应的单词。

然后我们对这个attention distribution使用weighted sum来计算当前encoder的hidden states作为一个我们的attention output，形成一个vector。应该就是将attention distribution的结果转换成了一个vector。

然后我们将这个vector和attention作用于的那个decoder进行拼接，用这个拼接的结果来计算我们最后输出的翻译结果。

最后使用刚才的这个结果作为我们第二个hidden layer的一个输入（一般可以这样做）。然后再进行第二次attention，得到我们得二个hidden layer的预测结果为单词：hit。然后依次重复这样的过程，得到我们最后的翻译结果。

最后的最后，我们对attention机制进行一个总结。

其中，我们的hidden states或者hidden layer可以称之为h1,h2…..hN,然后我们通过dot product可以得到我们的一个attention score:et

将这个et放入softmax函数当中，得到attention distribution： at 我们再使用这个at 来计算weighted sum ，而这个weight是我们hidden state（layer）的一个权重（终于豁然开朗，知道这个weighted sum怎么来的了！）

最后进行组合和拼接（左右互相拼接，不是上下），就得到了我们的预测值啦！具体公式如下图所示：

Original: https://www.cnblogs.com/geeksongs/p/15463620.html
Author: Geeksongs
Title: 【自然语言处理】：seq2seq当中的Attention注意力机制

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/576946/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【渝粤教育】电大中专学前儿童语言教育 (11)作业题库

作业视频教务托管1、3、鲁、鲁、10、0 [En] Homework video educational administration trusteeship, No. 1, 3,…

人工智能 2023年5月25日
00107
利用Joypy绘制嵴线图的案例

一、概念介绍嵴线图（ridgeline plot)，用来展示同一维度的几个数据的分布情况，每一层嵴线（峰峦）都是一个直方图或者密度图，层层堆叠形成了最终的嵴线图。 · 嵴线图一般…

人工智能 2023年7月8日
0061
Python图像处理【1】图像与视频处理基础

图像与视频处理基础 * – 0. 前言 – 1. 在 3D 空间中显示 RGB 图像颜色通道 – + 1.1 图像表示 + 1.2 在 3D 空…

人工智能 2023年7月30日
0055
ESimCSE: Enhanced Sample Building Method for Contrastive Learning of Unsupervised Sentence Embedding

论文目的 SimCSE 使用dropout作为数据增强的最小方法，因为transformer使用位置embedding，句子的长度信息会被编码到句子embedding中，所以uns…

人工智能 2023年5月31日
0072
深度学习框架安装(Tensorflow&PyTorch&PaddlePaddle）

一、前言本文中讲解的深度学习框架安装的步骤是基于Anaconda的，所以大家要想按照本文中的步骤安装深度学习框架，需要先安装Anaconda （换源要慎重）。实验环境： Win…

人工智能 2023年6月23日
0060
基于OpenCV实现暗通道先验去雾算法及改进，效果惊人

治愈生活的良方就是保持对生活的热爱哈喽，大家好，我是一条。每次和女朋友出去玩，拍照是必须的，天气好还行，天气要是不好，加上我这破手机，那拍的简直惨不忍睹，自己都不过去。但是…

人工智能 2023年6月19日
0097
yolov5目标检测神经网络——损失函数计算原理

前面已经写了4篇关于yolov5的文章，链接如下： 1、基于libtorch的yolov5目标检测网络实现——COCO数据集json标签文件解析 2、基于libtorch的yolo…

人工智能 2023年7月25日
0069
2022年10个特别优秀的AI应用程序，你知道几个？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0081
子空间聚类的常见评估指标及pytorch实现

子空间聚类的常见评估指标：ACC, SRE 和 CONN 引言 Evaluation Metrics * 聚类准确度（Clustering accuracy, ACC）子空间保持…

人工智能 2023年5月31日
0073
0201 为什么 Pytorch 定义模型要有一个 init 和一个 forward，两者怎么区分

https://www.bilibili.com/video/BV1GB4y1H7hq?spm_id_from=333.999.0.0&vd_source=b1ce52b6…

人工智能 2023年6月4日
00234
使用Flask简单部署深度学习模型

使用Flask简单部署深度学习模型一、安装 Flask pip install Flask==2.0.2 pip install Flask_Cors==3.0.9 pip in…

人工智能 2023年5月28日
0087
文献学习02-Effective Modeling of Encoder-Decoder Architcture for Joint Entity and Relation Extraction

论文信息（1）题目：Effective Modeling of Encoder-Decoder Architecture for Joint Entity and Relatio…

人工智能 2023年6月1日
0082
Ubuntu18.04/20.04复现算法RandLa-net 数据集S3DIS

原本打算先复现Pointnet++的，现在RandLa-net的性能吊打Pointnet++，先复现这个吧，Pointnet++以后再做。在大场景三维点云语义分割算法RandLA…

人工智能 2023年7月28日
0060
asp.net+sqlserver餐厅餐饮管理系统C#项目源码

第一章概述 21.1 课题背景 21.2 课题来源 21.3 研究内容 31.4 研究意义 3第二章开发环境和相关技术 52.1 .NET开发平台 52.2 SQL Serve…

人工智能 2023年6月29日
0082
[Python]-json模块-处理字典数据的存取

import json 函数 json.dumps() json.dumps()函数是将字典转化为字符串 json.loads() json.loads()函数是将字符串转化为字典…

人工智能 2023年6月4日
0084
VS 配置 OpenCV （亲测可用）

文章目录 VS 配置OpenCV * 一、opencv 下载安装二、环境变量配置三、相关文件配置四、进入VS 2015 配置属性管理器五、opencv使用六、附一份测试代…

人工智能 2023年6月24日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【自然语言处理】：seq2seq当中的Attention注意力机制

一.seq2seq机制

二.Attention注意力机制的原理

大家都在看