[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

HIBRIDS: Attention with Hierarchical Biases
for Structure-aware Long Document Summarization
[pdf]

  • 论文状态:被ACL22接收
  • 作者:University of Michigan的 Shuyang Cao 和 Lu Wang
  • TL;DR: 本文用相对关系矩阵为transformer引入文档结构信息,进而提升长文档摘要的效果,并介绍了一个新的任务:结构化"问题-摘要对"生成.

  • Motivation

文档的结构对于摘要是很重要的信息,如何有效地给摘要模型加入结构信息是一个有趣的问题.

受到自顶向下知识学习的启发:人们是从问宽泛的问题开始学习整体知识,再深入到细节中学习的.

于是作者提出一个新任务:给定一个文档,自动生成问题和摘要,并把"问题-摘要对"排列成文档的类似结构.

[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

; 2. Contribution

  • 发明了一种有效地给摘要模型提供源文档结构信息的方法:相对位置矩阵
  • 发布了一个新的摘要任务: 生成"问题-摘要对",从中提取文档的结构信息

  • Model

作者构建文档的结构树,用一个矩阵B B B,引入了2个值来表示树结构:

  • PathLen(x,y):章节x与y之间路径的长度
  • LvlDiff(x,y): x与y在树中深度(到root的距离)的差异

对应的图:

[ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记
作者以这个树结构矩阵B B B为查询表,为transformer的attention计算方式提供额外的结构信息.

对于encoder, 给定i号查询 q i q_i q i ​和由输入的n个token的key组成的矩阵K K K
更改self-attention机制为:
a i j = s o f t m a x ( q i K T + b i ) j b i = [ b i 1 , b i 2 , . . . , b i n ] a_{ij} = softmax(q_iK^T + b_i)j \ b_i = [b{i1},b_{i2},…,b_{in}]a i j ​=s o f t m a x (q i ​K T +b i ​)j ​b i ​=[b i 1 ​,b i 2 ​,…,b i n ​]
其中,bias项的计算方式是查表:
b i j = B [ PathLen ( i , j ) , LvlDiff ( i , j ) ] b_{ij}=B[\text{PathLen}(i,j),\text{LvlDiff}(i,j) ]b i j ​=B [PathLen (i ,j ),LvlDiff (i ,j )]
此外,作者还对decoder进行了设计,引入结构信息.

; 4. Experiments

数据的来源是GOVREPORT摘要数据集,里面是政府的报告和摘要,很长,源文档平均长度为9409,摘要平均长度为553.
作者请了11个大学生来在GOVREPORT数据集的基础上标注,标注者会根据每个摘要段落创造结构化的问题,并只能选择摘要句子作为答案.

作者的结构化"问题-摘要对"生成分了3个任务:

  • QSGen-Hier: 给定对齐的文档和根问题,生成一个能回答问题且有结构的摘要.
  • QSGen-ChildQ: 给定一个"问题-摘要对"和对齐的文档章节,生成所有的子问题.
  • Full Summary Generation: 生成整个长文档的摘要.

作者采用的摘要模型是Longformer,窗口长度设置为1024,在此基础上加入结构信息.
最后的实验表明,只在encoder里加结构信息貌似是最能帮助摘要生成的.

  1. Key takeaways

  2. 可以通过PathLen与LvlDiff构建矩阵,表示树中节点之间的相对位置关系.

  3. 可以直接用查相对位置表的方式给Transformer引入结构信息.

Original: https://blog.csdn.net/Tuka2000/article/details/123795026
Author: 涂卡
Title: [ACL22] HIBRIDS:Hierarchical Biases for Structure-aware Long Document Summarization 阅读笔记

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/531496/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球