Self-Attention(笔记,自用)

Self-Attention

Self-Attention

本文为观看哔哩哔哩up主霹雳吧啦Wz深度学习教程记得笔记,图片为视频截图,自用,侵删。

Self-Attention(笔记,自用)
  1. W q,W k,W _v_所有a _i_共享
  2. q:query,用来match其他a i k:key,用于被其他match匹配 v:value,从a _i_当中提取得到的信息
  3. 将所有a i_连接成为一组向量A,则: Q = AW q,K = AW _k,V = A*W v

; Attention公式

Self-Attention(笔记,自用)

Self-Attention(笔记,自用)
Self-Attention(笔记,自用)
Self-Attention(笔记,自用)

multi-head self-Attention

由于每个a i_和a _j,可能是由于不同的原因关联起来,也就是说某两对a _i_a _j_关联度都很大,但他们关系密切可能是由于不同的原因,所以为了表达这种情况,提出了multi-head self-Attention(多头)。

将q i,k i,v i_向量都平均分成n个,分给n个head使用,例如:每个q _i_分成q _i1 – q in ,每一个q i1,k i1,v _i1_分给head1,q _i12,k_i2*,v _i2_分给head2…以此类推。

Self-Attention(笔记,自用)

这样的话就将数据按n个head分成n部分,每一部分都按Attention公式分别计算,计算出的结果 拼接起来(注意是拼接)

Original: https://blog.csdn.net/qq_43780332/article/details/123036871
Author: 五-花~肉
Title: Self-Attention(笔记,自用)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548393/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球