深度学习升级打怪之self attention笔记

self attention

在听了李宏毅老师关于self attention的讲解后我觉得讲的非常好😉,下面是我在听完课之后做的一些学习记录,主要的参考是李宏毅老师的网课和课件(文末给出)。

self attention在NLP和很多其它领域都有着广泛的应用,以词性标注为例。

I saw a saw

这里的第一个”saw”是动词,第二个”saw”是名词(锯子),对于词性标注而言,模型的输入和输出的数量是相同的

深度学习升级打怪之self attention笔记

我们先考虑最简单的情况

深度学习升级打怪之self attention笔记
假设我们将这些词单独输入到一个全连接层,再输出,那么明显我们没有考虑到词与词之间的关系,训练出来的模型效果不会很好。一个比较自然的想法是在对每一个词进行词性标注的时候都要考虑其它词的影响。那么怎样判断其它的词的重要性呢?这个问题就可以使用self attention机制来解决。

深度学习升级打怪之self attention笔记

我们需要找出和当前词汇相关的向量,同时我们需要衡量向量之间的相关度,在这里我们用α \alpha α(attention score)来衡量向量之间的相关度,相关度的计算方法有很多种,比较常见的有dot production 和additive.

深度学习升级打怪之self attention笔记
假设原本的向量为a i a_i a i ​那么q i q_i q i ​ 和k i k_i k i ​则是由q i = W q a i q_i = W^q a_i q i ​=W q a i ​和k i = W k a i k_i = W^k a_i k i ​=W k a i ​这两个公式计算得来。得到了attention score之后我们往往会让其经过一个softmax层(也可以是别的激活函数)得到α ′ \alpha^{‘}α′,经过了softmax之后的attention score总和为1。有了相关度之后我们需要根据相关度计算信息,可以由下面的公式得到b i b^i b i。

深度学习升级打怪之self attention笔记

图片中是以第一个向量为例,后面的向量也和第一个向量的计算方式类似。更近一步,我们可以将这样的操作写成矩阵运算的形式。

深度学习升级打怪之self attention笔记
深度学习升级打怪之self attention笔记

如上图所示,我们最终可以得到output。

参考资料:

https://speech.ee.ntu.edu.tw/~hylee/ml/ml2021-course-data/self_v7.pdf

Original: https://blog.csdn.net/weixin_44077955/article/details/122648953
Author: Serendipity-Wu
Title: 深度学习升级打怪之self attention笔记

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/530887/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球