论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

2023年5月30日下午9:45 • 人工智能 • 阅读 73

论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

作者：景
单位：燕山大学

; 前言

先说说通常意义上的预训练模型，以BERT为例，它采用大规模预料对Transformer编码器进行预训练，保存编码器参数后接下游任务，针对不同的下游任务采取不同的微调措施，例如接分类器、接解码器等。这么做的好处在于”对症下药”，但实则可以看做是妥协的产物——因为在谷歌刚提出BERT的时候，并没有针对”只编不解”这个问题的良好对策，bert在编码器堆叠了12层，这12层模型的参数经过了大规模语料的千锤百炼，对文本特征的捕获能力是极强的，但是其下游任务（这里特指需要解码的生成式任务）却只是经过了特定的小规模语料的训练，编码器和解码器对文本特征的捕获能力不一致，存在一种虎头蛇尾的现象。同时，bert的预训练任务——完形填空，也不一定适配下游的所有任务。

那么，有没有一种预训练方法，能够涵盖编码器、解码器，让编解码器拥有同等捕获文本特征的能力呢？假设有的话，不难想象，它在解决序列到序列这一类问题的时候，应当超越单纯的自编码模型和自回归模型。

今天笔者要讲述的论文，就是基于这一点出发的。

BART：Bidirectional and Auto-Regressive Transformers ，字面意思为双向自回归Transformer，依旧是基于Transformer改造出的模型。在GPT分走了Transformer的解码器部分，BERT分走了Transformer的编码器部分之后，BART终于将”老父亲”的所有”家产”一起打包带走。

贡献

提出使用多种噪声破坏原文本，再将残缺文本通过序列到序列的任务重新复原的预训练任务
BART模型的提出解决了预训练模型编码器、解码器表征能力不一致的问题
在2019年生成式NLP任务的榜单上刷新了多个SOTA，验证了模型的有效性与先进性

模型

BART uses the standard sequence-to-sequence Transformer architecture , except, following GPT, that we modify ReLU activa-tion functions to GeLUs (Hendrycks & Gimpel, 2016)and initialise parameters from N(0,0.02). For ourbase model, we use 6 layers in the encoder and de-coder, and for our large model we use 12 layers ineach. The architecture is closely related to that used inBERT, with the following differences: (1) each layer ofthe decoder additionally performs cross-attention overthe final hidden layer of the encoder (as in the trans-former sequence-to-sequence model); and (2) BERTuses an additional feed-forward network before word-prediction, which BART does not. In total, BART con-tains roughly 10% more parameters than the equiva-lently sized BERT model.

BART模型使用了标准的Transformer结构为基础，并吸纳借鉴了BERT和GPT的优点，做出了自己的改进：

解码器模块参考GPT：将ReLU激活函数替换为GeLU激活函数
编码器模块区别于BERT：舍弃了前馈神经网络模块，精简了模型参数
编解码器衔接部分参考了Transformer：解码器的每一层都要对编码器最后一层的输出信息进行交叉注意力计算（也就是编解码注意力机制）

预训练任务的设置

BART的预训练任务设置可谓是模型的核心理念。

上图a哪怕不看图注，也可以一眼看出是BERT的预训练任务设置，随机掩盖一部分（15%）的词汇，整个预训练过程就是 完形填空：盖词→预测→预测错误计算损失→反向调参；

图b是GPT内置的预训练任务，采用的是自回归机制：预测下一个字→预测错误→反向调参→继续预测下一个字。

在BART模型中，原始文本参与了两个过程，如上图c所示：
1. 添加噪声随机进行”破坏”后输入编码器，噪声的设置方式包括但不限于掩码、乱序等，如下图所示。
2. 添加起始标记后从解码器输入。

单从上边两个数据流向来看，BART与BERT和GPT区别并不大，巧妙的是作者设置将残缺文本经过编码器的输出结合了自回归解码器，让模型针对原文本先做了 完形填空，接着做默写，先训练了编码，再训练了解码，最终的预训练目标又回归到原文本，充分利用了编码器和解码器的优点来提升自身的性能。

; 微调

BART模型的下游任务接法如上所示，对于分类任务，编码输入和解码输入保持一致性；对于生成式任务，则编码器输入为源文本，解码器输入为目标文本。

实验结果展示

在各个数据集上的指标对比如下。

各大large版模型的效果对比：

在两大摘要数据集上的实验结果：

; 结论

作者提出了一种预处理模型BART，可以在训练过程中将残缺文档映射到原始文档。BART在分类式任务上取得了与RoBERTa相似的表现，同时在一些文本生成任务上取得了新的最先进的结果。

Original: https://blog.csdn.net/u011150266/article/details/117742695
Author: 期待成功
Title: 论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545289/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在矩池云上复现 PaddleGAN 照片转油画风格教程

我选用的是cuda10.1纯镜像案例来自paddlepaddle官方PaddleGAN库中，可以查看 https://github.com/PaddlePaddle/Paddle…

人工智能 2023年6月4日
0078
【深度学习】Two-Stage目标检测算法

本文参考自第八章_目标检测.md Two stage目标检测算法：先进行区域生成（region proposal，RP）（一个有可能包含待检物体的预选框），再通过卷积神经网络进行…

人工智能 2023年7月12日
0078
sparql查询

参考资料：SPARQL基础知识：https://blog.csdn.net/qq_22938671/article/details/89071370RDF 和 SPARQL 初探：…

人工智能 2023年6月1日
0061
信息抽取（五）实体命名识别之嵌套实体识别哪家强，我做了一个简单的对比实验

实体矩阵构建框架 GlobalPointer class GlobalPointer(Module): """全局指针模块将序列的每个(start,…

人工智能 2023年5月31日
0076
人工智能作业（一）–安装Pycharm,配置Pytorch,Pytorch实现反向传播

人工智能作业（一）–安装Pycharm,配置Pytorch,Pytorch实现反向传播一、PyCharm 安装配置 * 1.Pycharm安装 2.打开Pycharm…

人工智能 2023年7月23日
0043
IDR：通过迭代数据细化的自我监督图像去噪

本文是CVPR2022的新论文，因与我的研究方向不是紧密相关，所以不看前两节，直接上方法！图1. 顶行：在不同时期创建的训练目标。它们已在我们的方法中逐步完善。底行：与以前的作…

人工智能 2023年6月20日
0071
Ubuntu18.04安装opencv和opencv_contrib（详细步骤及常见问题解决）

换了系统，今天又重新安装一下opencv，记录以下全过程，以及遇到的一些常见错误的解决办法。网上的安装教材很多，但遇到一些错误还是要自己一个一个去找，索性自己总结一个。一、下载安…

人工智能 2023年7月18日
0059
Vissim基础

版本基于Vissim8的学生版本，快速入门使用帮助大家掌握Vissim的基本操作路段三段式 ; 左转右转注意事项左转要一连多，右转要一连一停车标志 ; 期望速度决策点注意…

人工智能 2023年6月25日
0070
chm格式文件阅读器：iCHM Reader for Mac中文

Original: https://www.cnblogs.com/aurora-123/p/16735141.htmlAuthor: 佛系女孩Title: chm格式文件阅读器：…

人工智能 2023年6月3日
0054
【pandas】动手学pandas–基于莫烦python的教程

Pandas 本文提供了所有章节的可运行代码，要想尽快学习掌握，还是需要动手去运行查看效果，然后自己动手编写。 1、基本介绍 pandas类似于python的字典，一般和numpy…

人工智能 2023年7月17日
0042
基于PyTorch深度学习遥感影像地物分类与目标检测、分割及遥感影像问题深度学习优化

我国高分辨率对地观测系统重大专项已全面启动，高空间、高光谱、高时间分辨率和宽地面覆盖于一体的全球天空地一体化立体对地观测网逐步形成，将成为保障国家安全的基础性和战略性资源。未来10…

人工智能 2023年6月30日
0084
如何编写通用型运动控制器的绝对运动多轴直线插补程序

本节课程主要分为几个部分讲解，分别为运动控制器的直线插补的原理、直线插补方式、指令说明和控制器进行多轴直线插补的程序说明，以及ZDevelop软件仿真演示。一、直线插补说明插补…

人工智能 2023年6月4日
0061
tensor的索引、切片、拼接和压缩等

ensor的索引、切片和拼接一、相关命令命令1：拼接-torch.cat() 格式： torch.cat(tensors, dim=0, out=None) → Tensor …

人工智能 2023年6月17日
0072
使用SVM分类器进行图像多分类

ResNet backbone + SVM分类器对于样本较为均衡小型数据集，SVM作为分类器的效果与MLP的效果相近。从经验上看，对于样本不均衡的大型数据集，MLP的效果强于SV…

人工智能 2023年6月15日
0071
合成孔径雷达成像算法与实现(信号处理基础知识点)

最近由于学业上需要，重新学习了《合成孔径雷达成像算法与实现》一书，其中第二章是信号处理基础，在此记录下学习过程。一、信号处理基本概念 1.卷积与相关卷积：相关: 卷积从几何解…

人工智能 2023年6月20日
0063
PointNet解读

PointNet解决的问题：如上图所示： 1.点云图像的分类（整片点云是什么物体） 2.点云图像的部件分割（整片点云所代表的物体能拆分的结构） 3.点云图像的语义分割（将三维点云…

人工智能 2023年6月23日
0045

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

论文笔记| BART：Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation

大家都在看