PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

2023年5月27日下午11:43 • 人工智能 • 阅读 64

PRIMERA: Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

作者：加拿大哥伦比亚大学，艾伦人工智能研究所，华盛顿大学

Abstract

模型名字：PRIMERA

用途：多文档表示预训练模型，用于Summarization

预训练目标：跨文档连接和聚合信息

模型结构：encoder-decoder 简化连接输入文档的处理

验证数据集：3个不同领域6个多文档摘要数据集

实验过程：零样本，少样本和全监督

结果：比当前state-of-the-art数据集好很多

Introduction

当前热门方法：

基于图的多文档
GNN连接文档信息，层级信息
单文档表示，然后再聚合
缺点：当下都很少利用多文档信息

PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

我们的做法：

提出一种简单预训练方法，减少了对大规模fine-tune数据的需要和特点数据集架构的需求。

预训练目标：

原来 GSG（Gap Sentence Generation）mask 几个句子，解码时按顺序恢复。

实体金字塔 Entity Pyramid ：Mask 整个cluster中 salient 句子，鼓励跨文档查找信息汇总到一个摘要中

; contribution

PRIMERA，第一个针对多文档输入的预训练模型
提出Entity Pyramid，选择聚合salient information
结果比当前state-of-the-art好很多，在零样本和少样本下表现好

Model

如何最小化特点结构数据集

如何mask句子，捕获entity pyramid

input structure

将多文档连成一个序列，使用longformer处理

将多个文档连接成长序列（如何解决transformer宽度问题，速度效率如何）
由于级联序列很长，使用Longformer ( LED)
LED模型使用local+global attention机制，同时cross attention 使用full-attention，文档分隔符

Pretraining objective

其他general 摘要模型的预训练任务

PEGASUS 天马 GSG (Gap Sentence Generation) 预测被mask的句子
这里也是用GSG，不过把不同文档的sent-mask的句子连接作为为摘要来尝试生成

如何选择哪些句子mask，作为为摘要呢

GSG中使用了三种策略 Random，Lead，Principle，其中Principle策略使用Rouge分数计算每个句子的salience score
但由于多文档摘要中存在过多冗余信息，使得该方法不很适用。因此提出了实体金字塔Mask来选择最能代表输入文档集群的句子

Entity Pyramid Masking

方法来自：金字塔评估（2004），即一个摘要得分为SCU的标注化评价值，其中SCU为信息单元（摘要内容单元）

方法：

使用spacy进行识别实体
计算实体在该簇的不同文档出现频率，搭建文档频金字塔
对频率高的句子集合，计算与文档簇的Rouge得分，来得到最后需要mask的句子，作为预训练目标

Experiments

实验准备：

模型 longformer large
输入长度 4096，输出长度 1024 ，512滑动窗口用于输入的局部注意力
预训练数据集 The Newshead dataset (Gu et al., 2020)
验证数据集
验证指标 Rouge-1,Rouge-2，Rouge-L ，在少样本验证中使用了AVG Rouge进行验证

零样本，少样本实验设置：

由于目前预训练摘要任务，需要大量数据集进行fine-tune来适应特定领域数据集，很多现实场景不切实践，所以为了证明该预训练模型在零样本和少样本可以表现很好，做出实验。

由于零样本和少样本的实验结果会很大程度收到我们选择的样本质量影响，这里随机取10个样本，进行5次取不同random seeds的实验

对比实验设置：

BART
PEGSASUS

对于输入长度限制，使用input_length_limit/total_document长度来truncate每个文档。将BART和PEGASUS长度也设置相同

零样本实验：

输出长度设置为黄金摘要平均长度
推理过程中控制长度的方法（正交方向）留给未来工作
实验结果如下

; 少样本评估：

少样本对于实际应用场景更为现实，十几个的标注数据都能得到。使用10个和100个样本来进行实验计算AVG-ROUGE，实验结果如下。

全样本估计:

大部分数据集是最好的，但在Multi-XScience上略低，可能由于数据集cluster内部的文档关联性不高造成的。

; Ablation Study：

证明自己的contribution的有效性

第一个我觉得没必要，首先自己就是用的别人的LED，然后就是不同文档中间加了。这也是别人提出的，而且对比还自己预训练，别人没预训练情况在少样本情况对比，这结果都不用想。

第二个图，其他处理都保存不变的情况下，将预训练策略改为PEGASUS的mask句子然后还原，证明有效性，本身PEGASUS预训练策略就不是为了mutli-document summary 任务，好一点也是应该的。

这里消融实验就提了两点还没什么用，也确实就是方法的迁移，本身没什么技术创新性。

人工评估

人工评估了对 DUC2007和TAC2008数据集 生成摘要的质量和文字流畅度。

评估人得到匿名摘要，SCU列表进行召回，选择。

摘要质量：（SCU的原始结果，和R ,P,F1值

其中R,P,F1计算如下，len(gold)为黄金摘要长度，len(sys)为系统生成的摘要长度。

流畅度（语法性，参考清晰度，结构和连贯性）

; Conclusion

对于目前预训练任务，都是为了得到一个适合的自监督任务，考虑找一个适合的无监督任务生成自监督任务的label来进行预训练。

本文就是用了一种实体在文档中出现频率，然后找到包含该实体句子，在这些句子集合中再用Rouge得分排序，选择适合的setence集合。作为我们预训练任务的摘要。

对于零样本时，只能指定长度控制推理生成摘要长度，对于摘要，生成任务，能否自动控制输出适合长度的摘要，作为未来工作。

Confusion

这里我还没看源码，先考虑几个问题

笔者用spacy工具实现实体识别，效果是否不好，而且得到实体是否较为广泛，如果我们真的需要真的某一领域进行多文档摘要时，可以通过词典，NER任务等方式选择更为合适的entity，来选择target setence。
虽然本文为了增加输入长度限制使用了longformer，但始终还是只能达到4096，而且对于多文档摘要的策略4096除以文档数作为每个文档的max_len,这对于document来说有点过少了，所以如果我们使用该模型时，可能需要我们对输入文档进行前处理，选择重要部分（abstract，前几段，后几段）对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理，然后将summary进行拼接或者更好进行结合处理。
虽然该模型的少样本零样本的结果比以前模型好一点，但终究没有提高很多，还是无法用于实际，虽说现在摘要任务，能用于实际情况确实很少，而且基于都是简单摘要，对于多文档摘要问题还需继续努力。
后几段）对于每个cluster的文档数也需要进行限制。可能也可以考虑将一个cluster的document进行分隔处理，然后将summary进行拼接或者更好进行结合处理。
虽然该模型的少样本零样本的结果比以前模型好一点，但终究没有提高很多，还是无法用于实际，虽说现在摘要任务，能用于实际情况确实很少，而且基于都是简单摘要，对于多文档摘要问题还需继续努力。
该预训练根据Rouge得分最终选择sentence集合作为abstract结果，如何排序句子，是随机排序吗，最后预训练模型也会学习到该随机排序的顺序，是否可以改进这里的sentence position。

Original: https://blog.csdn.net/be_humble/article/details/124068494
Author: be_humble
Title: PRIMERA Pyramid-based Masked Sentence Pre-training for Multi-document Summarization

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528186/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多分类-手写识别体

1.分析数据集数据集：链接：https://pan.baidu.com/s/1YY9HuDqCSr3-CHWON3NdKg提取码：15eq mnist_train.csv 数据…

人工智能 2023年7月8日
0066
Python3，选择Python自动安装第三方库，从此跟pip说拜拜！！

python安装第三方库方法 1、引言 2、pip手动安装 * 2.1 在线安装 – 2.1.1 默认安装 2.1.2 指定版本安装 2.2 离线安装 2.3 设置国内…

人工智能 2023年7月3日
0068
一篇文章让你学会绘画十一种常见数据分析图（折线图，直方图，散点图，雷达图等等）

本篇博文主要内容ython Pyplot中的十一个常用绘图，包括参数说明，代码，运行结果。有问题可以+Q180096010一起交流学习~ 目录1. 折线图plt.plot绘制折线图…

人工智能 2023年7月4日
0067
图像的边缘检测-三种方法

图像的边缘检测：比较拉普拉斯算子，LOG算子，Canny算子三种边缘检测算法。编程思路：图像边缘就是图像灰度值突变的地方，也就是图像在该部分的像素值变化速度非常之快，就比如在坐标轴…

人工智能 2023年5月26日
0087
python opencv+tkinter 使用tkinter实现交互式图像处理工具

tkinter 基本控件与使用我们将学习如何使用Tkinter包编写一些图形用户界面程序。Tkinter是Python的一个标准包，因此我们并不需要安装它。我们将从创建一个窗口开…

人工智能 2023年6月17日
0090
COCO数据集训练TPH-YoloV5

设备：rtx 3060 环境要求：torch >= 1.8.1 其他环境按照源代码的readme安装即可 github地址：本文用COCO数据集来进行训练，TPH-YOLO…

人工智能 2023年7月21日
0053
python3.7+anaconda3-5.3.1+pytorch1.10.1环境搭建

根据github上bert的pytorch版本Readme当中的安装说明，它支持的python版本是3.6以上的，PyTorch是1.3.1以上的，所有我决定用python3.7来…

人工智能 2023年7月24日
0052
Python计算机视觉——第六章图像聚类

文章目录引言 6.1 K-means聚类 * 6.1.1 SciPy聚类包 6.1.2 图像聚类 6.1.3 在主成分上可视化图像 6.1.4 像素聚类 6.2 谱聚类引言本…

人工智能 2023年6月2日
0071
Android OpenCV（六十七）：KNN

前言 KNN（K- Nearest Neighbor）法即 K 最邻近法，最初由 Cover 和 Hart 于 1968 年提出，是一个理论上比较成熟的方法，也是最简单的机器学习算…

人工智能 2023年7月19日
0055
Attention机制介绍

因为要写作业，我都不记得老师上课有讲attention，作业十分艰难的写完了，但是还不知道attention是个啥，在此，准备看一篇文章，搞懂这是个啥。原文地址解释 she is…

人工智能 2023年5月30日
0089
NeRF学习笔记(含公式、图解和过程)

NeRF学习笔记关注公众号，不定期分享NeRF相关文献。 ; 引言 NeRF: Representing Scenes as Neural Radiance Fields for…

人工智能 2023年6月17日
0066
爬取华农数信院官网的新闻，并且发送到邮箱

信息爬取新闻一．实验背景如今的生活比较繁忙，而接收到的信息量巨大，会有忽略的时候，所以我选择信息爬取实验，来爬取本校数信学院的官网上关于本科生的通知，然后发送到邮箱，方便对信…

人工智能 2023年7月17日
0061
人工智能在网络安全中的重要性

介绍：人工智能（AI）是计算机科学的一个分支，基于某些独特的算法和相关数学计算，使机器能够拥有人类的决策能力。另一方面，网络安全包括保护虚拟世界免受网络攻击和威胁的安全措施。人工…

人工智能 2023年7月25日
0062
Mac M1的PyCharm中安装TensorFlow与创建工程的方法（支持GPU）

本文介绍在Mac M1的PyCharm中安装TensorFlow与创建工程的方法，在2021的MacBook Pro （M1 Pro处理器）验证OK。安装TensorFlow与创…

人工智能 2023年5月25日
0087
联邦学习后门攻击总结（2019-2022）

联邦学习后门攻击总结（2019-2022）联邦学习安全性问题框架概览下表和下图为联邦学习中常见的安全性问题，本文重点关注模型鲁棒性问题中的后门攻击问题。攻击手段安全性问题攻击…

人工智能 2023年6月15日
00453
python对表格的操作提取_Python如何将提取的列表逐列添加到新表中,python,取出,表格…

@ OC 分享****一种提取不同文件中特定的列并将该列依次添加到新的列表中的方法简化代码如下所示： import pandas as pd import numpy as n…

人工智能 2023年7月7日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31