注意力模型直观理解(Attention Model Intuition)

来源:Coursera吴恩达深度学习课程

本周的课程我们都在使用这个编码解码的构架(a Encoder-Decoder architecture)来完成机器翻译。当你使用RNN读一个句子,于是另一个会输出一个句子。 注意力模型(the Attention Model)会使它工作得更好。注意力这种思想(the attention idea)已经是深度学习中最重要的思想之一,我们看看它是怎么运作的。

注意力模型直观理解(Attention Model Intuition)

假设有一个很长的法语句子, 绿色的编码器读取并记忆整个句子,然后在感知机中传递(to read in the whole sentence and then memorize the whole sentences and store it in the activations conveyed here)。这个 紫色的解码网络(the decoder network)将生成英文翻译。但是,人工翻译并不会读整个法语句子,再记忆里面的东西,然后从零开始,机械式地翻译成一个英语句子。人工翻译可能是看一部分,翻译一部分,一直这样下去。因为记忆整个的像这样的的句子是非常困难的。

看这个Bleu score-Sentence length曲线图,我们看到这个编码解码结构对于短句子效果非常好,于是它会有一个相对高的Bleu分(Bleu score),但是对于长句子而言,比如说大于30或者40词的句子,它的表现就会变差 (蓝色曲线)。整体来看,很短的句子很难得到所有词会难以翻译;对于长句子,效果也不好,因为在神经网络中,记忆非常长句子是非常困难的。在之后的学习中,会学习注意力模型,它翻译得很像人类。有了注意力模型,机器翻译系统的表现会像 绿色曲线,因为翻译只会翻译句子的一部分,不会有一个巨大的下倾(huge dip),这个下倾实际上衡量了神经网络记忆一个长句子的能力,这是我们不希望神经网络去做的事情。

注意力模型直观理解(Attention Model Intuition)

注意力模型源于Dimitri, Bahdanau, Camcrun Cho, Yoshe Bengio。(Bahdanau D, Cho K, Bengio Y. Neural Machine Translation by Jointly Learning to Align and Translate[J]. Computer Science, 2014.)虽然这个模型源于机器翻译,但它也推广到其他应用领域。Andrew认为在深度学习领域,这个是个非常有影响力和开创性的论文。

看这个法语: Jane visite l’Afrique en Septembre(1)假定我们使用一个双向的RNN(a bidirectional RNN),为了计算每个输入单词的的特征集(set of features),我们必须要理解输出y-帽^

注意力模型就会计算注意力权重(a set of attention weights)。用α^

注意力模型直观理解(Attention Model Intuition)

如上图橘色标记,直观来想就是 RNN向前进一次生成一个词,直到最终生成可能是。注意力权重α^

以上就是关于注意力模型的一些直观的东西。

说明:记录学习笔记,如果错误欢迎指正!转载请联系我。

Original: https://blog.csdn.net/csdn_xmj/article/details/119276392
Author: 双木的木
Title: 注意力模型直观理解(Attention Model Intuition)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/547857/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球