注意力模型直观理解（Attention Model Intuition）

2023年5月31日上午2:10 • 人工智能 • 阅读 77

来源：Coursera吴恩达深度学习课程

本周的课程我们都在使用这个编码解码的构架（a Encoder-Decoder architecture）来完成机器翻译。当你使用RNN读一个句子，于是另一个会输出一个句子。 注意力模型（the Attention Model）会使它工作得更好。注意力这种思想（the attention idea）已经是深度学习中最重要的思想之一，我们看看它是怎么运作的。

假设有一个很长的法语句子，绿色的编码器读取并记忆整个句子，然后在感知机中传递（to read in the whole sentence and then memorize the whole sentences and store it in the activations conveyed here）。这个紫色的解码网络（the decoder network）将生成英文翻译。但是，人工翻译并不会读整个法语句子，再记忆里面的东西，然后从零开始，机械式地翻译成一个英语句子。人工翻译可能是看一部分，翻译一部分，一直这样下去。因为记忆整个的像这样的的句子是非常困难的。

看这个Bleu score-Sentence length曲线图，我们看到这个编码解码结构对于短句子效果非常好，于是它会有一个相对高的Bleu分（Bleu score），但是对于长句子而言，比如说大于30或者40词的句子，它的表现就会变差 （蓝色曲线）。整体来看，很短的句子很难得到所有词会难以翻译；对于长句子，效果也不好，因为在神经网络中，记忆非常长句子是非常困难的。在之后的学习中，会学习注意力模型，它翻译得很像人类。有了注意力模型，机器翻译系统的表现会像 绿色曲线，因为翻译只会翻译句子的一部分，不会有一个巨大的下倾（huge dip），这个下倾实际上衡量了神经网络记忆一个长句子的能力，这是我们不希望神经网络去做的事情。

注意力模型源于Dimitri, Bahdanau, Camcrun Cho, Yoshe Bengio。（Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.）虽然这个模型源于机器翻译，但它也推广到其他应用领域。Andrew认为在深度学习领域，这个是个非常有影响力和开创性的论文。

看这个法语： Jane visite l’Afrique en Septembre。 （1）假定我们使用一个双向的RNN（a bidirectional RNN），为了计算每个输入单词的的特征集（set of features），我们必须要理解输出y-帽^

注意力模型就会计算注意力权重（a set of attention weights）。用α^

如上图橘色标记，直观来想就是 RNN向前进一次生成一个词，直到最终生成可能是。注意力权重α^

以上就是关于注意力模型的一些直观的东西。

说明：记录学习笔记，如果错误欢迎指正！转载请联系我。

Original: https://blog.csdn.net/csdn_xmj/article/details/119276392
Author: 双木的木
Title: 注意力模型直观理解（Attention Model Intuition）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/547857/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

主成分分析（PCA）及其可视化——python

可以看看这个哦python入门：Anaconda和Jupyter notebook的安装与使用_菜菜笨小孩的博客-CSDN博客如果你学会了python 可以看看matlab的哦 …

人工智能 2023年7月3日
0082
《动手学深度学习》参考答案(第二版)-第三章

最近在学习《动手学深度学习》，结合百度和课后的大家的讨论(侵删)，整理出这一份可能并不完全正确的参考答案(菜鸡的做题记录)，因为个人水平有限，有错误的地方欢迎在公众号联系我，后…

人工智能 2023年6月16日
0080
Android从零开始配置opencv+tensorflow进行人脸识别+口罩识别(一：opencv配置部分)

前排提示现在的opencv和dlib导入在github上已经有导入完成的项目了，如果不是为了学习而用的话，直接去github克隆，方便快捷快速导入opencv到项目中点击后会…

人工智能 2023年7月20日
0057
VM下运行python

VM下Ubuntu中pytorch环境搭建 1.虚拟机装minicondaa.下载地址：https://docs.conda.io/en/latest/miniconda.html…

人工智能 2023年7月24日
0059
C/C++，不废话的宏使用技巧

经典废话下面的所有内容全是我在欣赏一串代码时发出的疑问，之前对宏的了解不多，导致在刚看到下面的这串代码的时候是”地铁老人手机”，具体代码如下，如果有对…

人工智能 2023年6月27日
0093
自动驾驶轨迹预测论文阅读（二）TPNet: Trajectory Proposal Network for Motion Prediction

论文链接：https://openaccess.thecvf.com/content_CVPR_2020/papers/Fang_TPNet_Trajectory_Proposal…

人工智能 2023年6月24日
00114
Pandas时间类型数据处理常用方法小结

在数据处理、特征工程时，往往需要按照时间段来统计特征，例如计算间隔天数、最近一个月、最近3个月、最近半年、最近一年某用户的行为数据，那么如何计算筛选这些时间点呢？下面就来介绍一些常…

人工智能 2023年7月6日
0074
NYT-10数据获取（1.74G）

前言本文大多数内容均copy于关系抽取数据集 NYT-10 SemEval2010 一、NYT-10是什么？ NYT-10数据发布于Riedel et al, 2010这篇论文中…

人工智能 2023年6月1日
0072
tensorflow使用gpu进行训练

GPU之nvidia-smi命令详解查看显卡的信息： cmd: nvidia-smi https://www.jianshu.com/p/ceb3c020e06b GPU：本机中的…

人工智能 2023年5月24日
00105
python自带的idle以及pycharm使用

作者介绍： ♥️ 作者：小刘在C站♥️ 每天分享课堂笔记，一起努力，共赴美好生活！♥️ 夕阳下，是最美的绽放。目录一.python自带的idle 二.ipython ipyth…

人工智能 2023年7月4日
0073
Android OpenCV实现人脸检测（一）完成人脸检测功能

环境搭建： Android Studio 集成OpenCV 本节完整的代码链接： Android OpenCV Demo 预览黑屏（下一节会实现预览的功能） ; 1.创建 asse…

人工智能 2023年7月20日
0082
论文研读-机器学习可视化-面向可视解释的零样本分类主动学习

面向可视解释的零样本分类主动学习 1 文章概要 * 1.1 摘要 1.2 引言 – 1.2.1 零样本分类 1.1.2 解决方案 1.2.3 文章贡献 1.3 组织结构…

人工智能 2023年7月18日
0045
计算机视觉项目-实时目标追踪

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉深度学…

人工智能 2023年7月25日
0066
Yolov5（最新版）环境配置及部署之环境配置（一) （详细教程）

Yolov5 环境配置及部署之环境配置（一) （详细教程）最近在学习yolov5，记录下过程。一、环境配置进入Github官网https://github.com/ultra…

人工智能 2023年6月15日
00102
【ML】使用支持向量回归器进行时间序列预测

🔎大家好，我是Sonhhxg_柒，希望你看完之后，能对你有所帮助，不足请指正！共同学习交流🔎📝个人主页－Sonhhxg_柒的博客_CSDN博客📃🎁欢迎各位→点赞👍 + 收藏⭐️ +…

人工智能 2023年6月16日
00109
【数字图像处理课程设计】期中、期末综合考试题目整理总结（共四个图像处理算法应用题）

目录一、下面两幅图像中有几处不同，编程把它们找出来、并在图中突出显示（关键步骤不能调用内置函数）。 1.算法原理 2.解题步骤 3.程序代码 4.处理结果二、下图含有干扰条纹（…

人工智能 2023年6月17日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

注意力模型直观理解（Attention Model Intuition）

大家都在看