论文总结：Efficient Long Sequence Encoding via Synchronization

2023年5月28日上午2:10 • 人工智能 • 阅读 62

Tranformer模型处理长输入序列的效率低下，从而会限制两种使用场景：1）对长度超过输入限制的单个长文本进行编码；2）联合多个文档进行编码（如多跳推理和多文档摘要）

这是因为每个Transformer层中使用的自注意力机制需要计算每对输入单词的注意力，这样的计算导致每个Transformer层的时间和空间复杂度为O(l^2)（l是序列长度）。这样就限制了Transformer在长序列中的表现。

现有解决方法可分为两类：
1）分层编码 hierarchical encoding：先把长序列分割，并对每个分割段进行编码，然后找到有效的方法在分割段之间传递信息并补偿分割引起的重要全局信息的损失
2）事后聚合 post-hoc aggregation：先把长序列分割，编码器独立地对不同分割段进行编码，然后解码器在所有分割段上用全局注意力机制生成预测。这种方法只允许浅层信息交换

本文提出的方法基于事后聚合post-hoc aggregation方法，提出了一种同步机制，用来在编码期间从其他相关分割段中交换有用的信息，以此维护全局信息。
本文方法首先在分割段中识别一系列anchors，基于语义单元的相似性或它们在原始序列中的角色将它们分成不同的组，已识别的anchors和组会在逻辑上自然地连接不同的分割段。
具体说来，在编码器的每个Transformer层中，正常局部编码后，我们会基于其他的anchor embedding，对每个anchor执行embedding更新（即anchro同步）。就这样局部编码和anchor同步迭代发生，使得全局信息得以在分割段之间通过anchors传播。

我们的方法更加灵活：
1）该方法提供了一个更细粒度的信息交换机制；
2）该方法是一个通用框架，将全局编码问题简化为同步模式设计。对于任意一个新任务，通过识别特定任务的anchors和anchor分组，很容易将人类的先验知识注入模型。

在两个具有长输入文本的代表性任务上进行实验，一个是NarrativeQA摘要，一个是在HotpotQA上进行多跳推理。实验结果表明，本论文的方法能够改善分割段之间的全局信息交换。

Original: https://blog.csdn.net/qq_43527718/article/details/124140078
Author: rebekk
Title: 论文总结：Efficient Long Sequence Encoding via Synchronization

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528732/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

conda配置TensorFlow2.4.0GPU版本

conda配置TensorFlow2.4.0GPU版本前几天废了老大的劲儿，终于在conda下安装好了CUDA11.0+cuDNN8.0+PyTorch，（该总结只适合已经安装好…

人工智能 2023年5月25日
0075
Transformer的前世今生

目录引言 Attention Transformer Transformer在CV中的应用引言 Transformer在今天已经非常火了, 不管是NLP, 还是CV, 效果表现…

人工智能 2023年5月28日
0089
目标检测 YOLOv5 常见的边框（bounding box ）坐标表示方法

目标检测 YOLOv5 常见的边框（bounding box ）坐标表示方法 flyfish 边框是在图像上标记目标的矩形。边框的标注有多种格式。每种格式都使用其特定的边框坐标表示…

人工智能 2023年7月9日
00218
自动驾驶仿真：VTD调用罗技 G923方向盘（Linux环境）

文章目录前言一、安装new-lg4ff-master 驱动二、 Logitech G923硬件参数配置三、 jstest-gtk 可视化调试工具四、VTD调用Logi…

人工智能 2023年6月26日
0097
TensorFlow2和keras详细安装教程

环境配置：系统：win10 1、安装 Anaconda，安装教程请自行百度。这里我使用的版本是： C:\Users\HaiBin>conda –version conda…

人工智能 2023年7月28日
0058
概述：隐式神经表示（Implicit Neural Representations，INRs）

隐式神经表示（Implicit Neural Representations，INRs） 1 简介 * 1.1 传统的隐式表示 – 1.1.1 代数表示 1.1.2 函…

人工智能 2023年7月27日
0058
CS224W图机器学习笔记1-图机器学习基础知识

图机器学习基础知识课程和PPT主页图的基本概念图（Graphs）是一种用于描述和分析具有关系或相互作用的实体的通用语言。现实生活中存在很多种类型的图，例如：广义的图主要可以分…

人工智能 2023年6月15日
0055
MMDetection之pipline详解

文章目录前言 1、CustomDataset类实例化 2、Pipline 3 、DefaultFormatBundle * 3.1 DataContainer类 4、Collat…

人工智能 2023年7月10日
00104
查看anaconda中的python,tensorflow版本

安装anaconda后，该如何查看anaconda对应的python版本在anaconda环境下安装tensorflow后，如何查看当前tensorflow版本 1、查看cond…

人工智能 2023年5月26日
00115
【matlab图像处理】图像的逻辑运算实践

中国史之【昭王攻荆楚】：周天子周昭王三次南征楚国的战争。周昭王亲率六师南征楚国，在汉水边准备渡江时，因为船只被人做了手脚而沉入水中，周人丧失六师于汉水中，遭到全军覆没的惨败。——来…

人工智能 2023年6月20日
0089
【机器学习】浅谈正规方程法&梯度下降

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推还没账户的…

人工智能 2023年7月26日
0055
docker from指令的含义_多个FROM-含义

小编典典什么是基本图片？一组文件，加上EXPOSE端口ENTRYPOINT和CMD。您可以添加文件并基于该基础图像构建新图像，Dockerfile并以FROM指令开头：后面提…

人工智能 2023年6月1日
0083
跟踪算法-Deep sort简介

目录跟踪的基本思想跟踪框与检测框卡尔曼滤波算法—预测匈牙利算法—-匹配对于目标跟踪，前提是能够对单张图片中的车辆进行检测，从而知道图片中车辆的位置…

人工智能 2023年6月2日
00101
【自然语言处理】【知识图谱】知识图谱表示学习(五)：【PairRE】基于成对关系向量的知识图谱嵌入

原始论文：https://arxiv.org/pdf/2011.03798.pdf 一、简介基于距离的知识图谱嵌入方法在链接预测任务上效果显著。在链接预测任务中，存在两个被广…

人工智能 2023年6月1日
0041
使用Pytorch框架自己制作做数据集进行图像分类（一）

第一章：Pytorch制作自己的数据集实现图像分类第一章： Pytorch框架制作自己的数据集实现图像分类第二章： Pytorch框架构建残差神经网络(ResNet)第三章： P…

人工智能 2023年6月12日
0099
python+OpenCV笔记（三十五）：特征匹配——基于FLANN的匹配、基于FLANN进行单应性匹配

目录一、基于FLANN的匹配 FLANN匹配流程：代码编写二、基于FLANN进行单应性匹配什么是单应性？ FLANN进行单应性匹配流程代码编写 FLANN库全称是Fast…

人工智能 2023年7月18日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

论文总结：Efficient Long Sequence Encoding via Synchronization

大家都在看