Talking-Heads Attention

1. Multi-Head Attention

当前最流行的Attention机制当属 Scaled-Dot Attention (源于 Attention Is All You Need) ,即:

Talking-Heads Attention

基于上述 Scaled-Dot Attention 下标准的 Multi-Head Attention 如下所示:

Talking-Heads Attention

; 2. Talking-Heads Attention

近日,来自 Google 的研究团队提出一种「交谈注意力机制」(Talking-Heads Attention),在 softmax 操作前后引入对多头注意力之间的线性映射,以此增加多个注意力机制间的信息交流。这样的操作虽然增加了模型的计算复杂度,却能够在多项语言处理问题上取得更好的效果。

2.1 基本原理

当前的Multi-Head Attention每个head的运算是相互孤立的,而通过将它们联系(Talking)起来,则可以得到更强的Attention设计

Talking-Heads Attention
如上图,就是将多头注意力用一个参数矩阵重新融合成多个混合注意力。每个新的得到的混合注意力都融合了原先的各head注意力。
注:
1、这里省略了缩放因子 {d_k}^1/2
2、新生成的多个混合注意力可以多于原先的h
; 2.2 具体实现

【参考博客】:

Original: https://blog.csdn.net/u012856866/article/details/120200861
Author: 酒酿小圆子~
Title: Talking-Heads Attention

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531950/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球