Talking-Heads Attention

2023年5月28日下午2:02 • 大数据 • 阅读 76

1. Multi-Head Attention

当前最流行的Attention机制当属 Scaled-Dot Attention (源于 Attention Is All You Need) ，即：

基于上述 Scaled-Dot Attention 下标准的 Multi-Head Attention 如下所示：

; 2. Talking-Heads Attention

近日，来自 Google 的研究团队提出一种「交谈注意力机制」（Talking-Heads Attention），在 softmax 操作前后引入对多头注意力之间的线性映射，以此增加多个注意力机制间的信息交流。这样的操作虽然增加了模型的计算复杂度，却能够在多项语言处理问题上取得更好的效果。

论文：Talking-Heads Attention
论文地址：https://arxiv.org/abs/2003.02436

2.1 基本原理

当前的Multi-Head Attention每个head的运算是相互孤立的，而通过将它们联系（Talking）起来，则可以得到更强的Attention设计

如上图，就是将多头注意力用一个参数矩阵重新融合成多个混合注意力。每个新的得到的混合注意力都融合了原先的各head注意力。
注：
1、这里省略了缩放因子 {d_k}^1/2
2、新生成的多个混合注意力可以多于原先的h

; 2.2 具体实现

tensorflow官方实现：https://github.com/tensorflow/models/tree/master/official/nlp/modeling/layers
pytorch实现1：https://github.com/lucidrains/x-transformers
pytorch实现2：https://github.com/lucidrains/En-transformer

【参考博客】：

注意力机制的改进：https://blog.csdn.net/zsycode/article/details/105811847
Google | 突破瓶颈，打造更强大的Transformer：https://blog.csdn.net/xixiaoyaoww/article/details/105549150

Original: https://blog.csdn.net/u012856866/article/details/120200861
Author: 酒酿小圆子～
Title: Talking-Heads Attention

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/531950/

转载文章受原作者版权保护。转载请注明原作者出处！

大数据

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

字节跳动嵌入式数据分析最佳实践

更多技术交流、求职机会，欢迎关注字节跳动数据平台微信公众号，回复【1】进入官方交流群商业智能 (BI) 已经广泛被应用到用户实际业务过程中，如果BI作为独立应用平台应用，那么用…

大数据 2023年6月2日
0058
【大话云原生】煮饺子与docker、kubernetes之间的关系

大数据 2023年11月14日
0035
Linux系统中CPU占用率较高问题排查思路与解决方法

镜像下载、域名解析、时间同步请点击阿里云开源镜像站这篇文章主要给大家介绍了关于Linux系统中CPU占用率较高问题排查思路与解决方法，文中通过示例代码介绍的非常详细，对大家学习或…

大数据 2023年5月27日
0090
一款OLAP数据库ClickHouse

本篇主题：基于3W1H原则，讲解ClickHouse，以便于后续开发实践。中文文档：如何使用 ClickHouse 测试您的硬件 | ClickHouse Docs 1 clic…

大数据 2023年11月13日
0083
zookeeper 集群搭建

0. 环境准备本实验基于以下 3 台测试机器进行： IP hostname 10.4.79.90 hadoop-1 10.4.79.8 hadoop-2 10.4.79.6 ha…

大数据 2023年6月3日
0070
基于容器的方式做一个apache编译安装的镜像

基于容器的方式做一个apache编译安装的镜像基于容器的方式做一个apache编译安装的镜像创建容器前的部署下载包组依赖包下载apr,apr-util,httpd,并解压 …

大数据 2023年5月27日
0058
【Vegas原创】查看正在运行的docker run参数

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

大数据 2023年5月29日
0097
redis经典问题：Asynchronous AOF fsync is taking too long (disk is busy?). Writing the AOF buffer without …

大数据 2023年11月16日
0044
开源问答系统调研

各类关于CQA，KBQA，KGQA问答系统的研究层出不穷，本文面向中文智能问答系统在工业界落地的需求，调研了GIthub上几个具有借鉴意义的问答系统项目。基于BERT的命名实体…

大数据 2023年5月28日
0055
sqlite3数据库之blob数据类型读写

sqlite3数据库之blob数据类型读写近期在开发过程中需要在数据库中保存二进制文件，于是去了解了一下sqlite3的数据类型，发现blob可以存储二进制数据。但是blob要如…

大数据 2023年11月11日
0060
玩转SQLite6：使用C语言来读写数据库

上篇文章介绍了如何使用Pyhton语言来操作SQLite数据库，对于嵌入式开发，更多的是使用C/C++语言进行开发，因此，本篇介绍如何使用C语言来操作SQLite数据库。 1 SQ…

大数据 2023年11月11日
0046
浅析Redis基础数据结构

Redis是一种内存数据库，所以可以很方便的直接基于内存中的数据结构，对外提供众多的接口，而这些接口实际上就是对不同的数据结构进行操作的算法，首先redis本身是一种key-val…

大数据 2023年6月2日
0090
python爬虫配置随机请求头headers伪装User-Agent

fake_useragent 库调用方法 ua.random可以随机返回一个headers(User-Agent) from fake_useragent import User…

大数据 2023年6月2日
0064
Mac CasRel模型代码复现 A Novel Cascade Binary Tagging Framework for Relational Triple Extraction

一、创建虚拟环境要Python37的环境，为了避免不同环境下的依赖相互影响，所以创建一个新的py环境，我用的是conda，命令如下： conda create -n casrel…

大数据 2023年5月28日
0099
SElinux管理

SElinux将所有的文件&#x90FD…

大数据 2023年5月27日
0057
Anaconda安装教程

[Anaconda是什么？Anconda下载安装教程一.如果从事Python开发，配置环境需要安装两个包：第一个安装开发工具，俗称IDE : 推荐使用 Pycharm第二个安装开…

大数据 2023年5月26日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Talking-Heads Attention

1. Multi-Head Attention

; 2. Talking-Heads Attention

2.1 基本原理

; 2.2 具体实现

大家都在看