【论文精读】Debert:decoding-enhanced Bert with disentangled attention

2023年5月28日上午7:21 • 人工智能 • 阅读 82

自然语言处理领域在各个子任务上都有相应的榜单和标杆数据集，但由于GLUE benchmark数据规范，体量庞大，同时集合了多个子任务，全方位考验模型的能力。几乎所有近年来的大型预训练模型都以在 GLUE 上实现 SOTA 为目标，

DeBERTa仅用一半预训练数据即可在众多NLP任务中超越RoBERTa-Large，并且超过了SuperGLUE的人类baseline2021年1月在SuperGLUE上夺冠。

一、背景

1.1transformer

deberta是一个基于transformer的神经语言模型。

transformer结构是由输入模块、encoder模块、decoder模块和输出模块组成。

Transformer 的 Decoder的输入与Encoder的输出处理方法步骤是一样地，一个接受source数据，一个接受target数据.只是在有target数据时也就是在进行有监督训练时才会接受Outputs Embedding，进行预测时则不会接收。

1.1.1输入部分首先将词转化为embdding，再添加相应的位置编码，输入到后续的encoder模块中，因为encoder模块中的attention机制不能识别单词的位置信息，将一句话中的词全部打乱，得到的注意力权重是同样的，因此需要在输入模块添加单词的位置信息也就是positional embdding。

位置embdding：

每个词语的词向量的偶数位置添加sin变量，奇数位置添加cos变量

pos是词在输入句子中的位置，i是维度：

举例，d_model=128 ，pos=3，则positional表示为

使用sin编码和cos编码的原因是可以得到词语之间的相对位置

即由sin（pos+k）可以得到通过线性变换获取后续词语相对当前词语的位置关系.

1.1.2encoder block

Encoder block是由6个encoder堆叠而成，一个encoder由Multi-Head Attention 和全连接神经网络Feed Forward Network构成。

1.1.3decoder block

decoder block是由6个decoder堆叠而成

一个decoder由Masked Multi-Head Attention，Multi-Head Attention 和全连接神经网络FNN构成

1.2self-attention

其中，Nd维的矩阵H表示输入的隐藏向量，Nd维的矩阵Ho表示自注意力机制的输出。

dd维的矩阵Wq，Wk，Wv表示映射矩阵。NN维的A表示注意力矩阵，N是输入序列的长度，d是隐藏状态的维度。

1.3masked language modeling

随机mask句子中15%的token（用标记[MASK]代替token），然后将[MASK]位置最后输出的隐藏向量送入softmax，来预测masked token。

输入：今天天气真好-》今天天[MASK]真好

输出：气

二、创新点

1、Disentangled attention

在BERT中，输入层中的每个单词都是用一个向量表示的，这个向量是单词内容embdding+位置embdding，而在DeBERTa中，每个单词都是用两个向量表示的，分别对内容和位置进行编码，根据单词的内容和相对位置，利用解耦矩阵计算单词之间的attention score。

一对词的attention weight不仅取决于词的内容，还取决于它们的相对位置。例如，deep和learning两个词相邻时，它们的依赖性比它们分别出现时要强的多。

1.1.1相对位置计算

1.1.2注意力机制计算

一个在序列中位置为i的token，使用{Hi}来表示它的内容，使用{Pi，j}来表示它和在序列中位置为j的token的相对位置。计算在token i和token j之间的交叉注意力得分可以分解为4个部分：

单词对的注意权重等于四个注意分数的和，使用内容到内容、内容到位置、位置到内容、位置到位置的解耦矩阵。

现有的相对位置编码方法使用单独的嵌入矩阵来计算注意力权重中的相对位置偏差。相当于只使用上述公式中的前两项来计算注意力权重。文章认为位置到内容这一项也很重要。由于我们使用了相对位置embdding，位置对位置项没有提供太多额外的信息，因此删除第四项。

1.1.3解耦注意力机制计算

1.1.4伪代码

2、Enhanced mask decoder（EMD）

motivation

解耦注意机制已经考虑了上下文词的内容和相对位置，但没有考虑这些词的绝对位置，

DeBERTa在softmax层之前引入了绝对单词位置embdding，在softmax层中，模型将内容embedding和位置embedding求和得到的上下文embdding来对被mask的单词进行解码。合并绝对位置的方法有两种，BERT模型在输入层合并绝对位置。在实证研究中，作者比较了这两种结合绝对位置的方法，发现EMD的效果更好。推测BERT中过早合并绝对位置可能妨碍模型从相对位置中学习充足的信息。

B图为EMD层的结构

H是上一层transformer的隐藏状态,I是用于解码的任意信息（如H、绝对位置编码、来自前EMD的输出）。

n表示n个堆叠的EMD，其中每个EMD的输出会作为I输入到下一个EMD层。

n个层之间可以共享权重，为了减少参数，本文设置n=2，即两层EMD层共享权重，并使用绝对位置编码作为I输入到第一层EMD中。当n=1且I=H时，EMD退化为transformer的decoder层。

3、Scale invariant fine-tuning 尺度不变微调

motivation：

虚拟对抗训练是一种提高模型泛化能力的正则化方法。通过对输入的样本增加小扰动生成对抗样本，添加对抗样本进行训练。对于自然语言处理任务，在word embedding上做扰动而不是原词序列。但在不同的词和模型中，embedding向量的取值范围是不同的。在最近的模型中通常对word embedding进行归一化。

当DeBERTa对下游的NLP任务进行微调时，这种尺度不变性微调首先将word embedding向量归一化，然后对归一化后的embedding向量进行扰动。但实验中，作者只将SiFT应用于SuperGLUE任务的DeBERTa1.5B。

三、实验

3.1 large模型性能

作者按照BERT_large的模型结构设置训练了以上几个模型的large版本，RoBERTa、XLNet和ELECTRA是在160G训练数据上进行预训练的，而DeBERTa是在78G训练数据上进行预训练的。比较了这几个模型的在GLUE的8个nlu任务的开发集上的效果。上图显示，与BERT和RoBERTa相比，DeBERTa在所有任务中始终表现得更好。同时，DeBERTa在8个任务中有6个优于XLNet。

3.2其他下游任务模型性能

除了GLUE之外，DeBERTa还通过三个类别的NLUbaseline进行评估:(1)Question answering:SQuAD v1.1 、SQuAD v2.0、RACE、ReCoRD 和SWAG;(2)自然语言推理:MNLI ;和(3)NER: CoNLL-2003。为了比较，我们包括ALBERT_xxlarge 和 Megatron，它们有三种不同的模型大小，分别表示为Megatron336M、Megatron1.3B和Megatron3.9B，使用与RoBERTa相同的数据集进行训练。请注意，Megatron336M与上面提到的其他型号有相似的模型尺寸。与这些规模大小类似的SOTA plm相比，DeBERTa在所有7个任务中的得分都很高。虽然Megatron1.3B是DeBERTa的三倍大，但DeBERTa在四个基准测试中有三个都超过了它。（斜杠-代表缺失）

3.3base模型性能

论文还比较了base模型的性能，对上述模型结构的设置也参照了bert_base模型的设置，同样使用78G数据集训练DeBERTa，使用160G文本数据训练XLnet和roberta进行对比，也是得到了更高的性能。

3.4消融实验

为了比较不同部分的改进对deberta模型整体效果的影响，作者做了消融实现进行对比，-EMD表示模型去除了增强的mask 的decoder，-c2p表示模型去除了解耦矩阵计算中内容到位置的项，-p2c表示模型去除了位置到内容的项。上表可以看到，删除每一处改进都会导致模型性能的降低，其中，删除解耦矩阵计算的两项会导致性能降低得更多。

3.5deberta_1.5B版本模型性能

更大的模型具有更好的性能，作者构建了一个具有15亿参数的deberta模型

Original: https://blog.csdn.net/baweikamisama/article/details/122728670
Author: 巴卫かみさま
Title: 【论文精读】Debert:decoding-enhanced Bert with disentangled attention

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530326/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ReduceLROnPlateau

Last updated: 2022-09-01, 17:25 tf.keras.callbacks.ReduceLROnPlateau( monitor=’val_loss’, …

人工智能 2023年7月28日
00105
js获取当前时间

### 回答1： Auto. js_是一款能够模拟人的操作来自动化手机操作的工具。 _获取当前时间_也是Auto. _js_的基本功能之一。可以使用 _JavaScript_中的D…

人工智能 2023年6月29日
0078
Python机器学习—特征工程

文章目录 1、数据集 * 1.1 可用数据集 1.2 scikit-learn数据集 – sklearn小数据集 sklearn大数据集 1.3 数据集的划分 &#82…

人工智能 2023年6月11日
0084
Python — — turtle 常用代码

目录一、设置画布二、画笔 1、画笔属性 2、绘图命令 (1) 画笔运动命令 (2) 画笔控制命令 (3) 全局控制命令 (4) 其他命令 3. 命令详解三、文字显示为一个圆圈…

人工智能 2023年6月3日
0091
机器学习之k-means算法介绍及python代码实现

目录 1.K-means算法介绍 * 1.1背景 1.2K-means算法理解 1.3K-means算法过程 – 1.3.1初始化 1.3.2归类 1.3.3更新质心 …

人工智能 2023年6月2日
0072
OpenCV CEO教你用OAK（一）：OAK和DepthAI入门

编辑：OAK中国首发：oakchina.cn喜欢的话，请多多👍⭐️✍ 前言 Hello，大家好，这里是OAK中国，我是助手君。本期分享的内容来自OpenCV CEO写的专栏文章，…

人工智能 2023年7月14日
00113
CVPR2022，RealBasicVSR，MMEditing复现，使用REDS数据集模拟进行迁移训练

活动地址：CSDN21天学习挑战赛 1.环境准备环境配置可以参考这里 2.数据集下载 REDS数据集网站训练集需要下载train_sharp、train_sharp_bi…

人工智能 2023年6月18日
0090
CS224W: Machine Learning with Graphs – 10 Heterogeneous Graphs and Knowledge Graph Embeddings

A heterogeneous graph is defined asG = ( V , E , R , T ) G=(V,E,R,T)G =(V ,E ,R ,T ) Nodes…

人工智能 2023年6月10日
0069
猿创征文｜ZooKeeper（伪）集群搭建

前言：zookeeper 作为一款分布式协调中间件，其重要性不言而喻，因此需要保证其高可用性。所以一般都会搭建zookeeper集群，今天叶秋带领大家在一台服务器上搭建伪集群。 …

人工智能 2023年6月2日
0083
【模糊神经网络】基于matlab的模糊神经网络仿真

1.软件版本 matlab2013b 2.系统概述 ·第一个模型： ·第二个模型第一：隶属函数的设计隶属函数的设计，可以通过模糊编辑器，也可以通过如上的代码进行设计。第二：模…

人工智能 2023年7月13日
0057
1.5、计算机网络的性能指标(1)

性能指标可以从不同的方面来度量计算机网络的性能。常用的计算机网络的性能指标有以下8个速率带宽吞吐量时延时延带宽积往返时间利用率丢包率 1、比特计算机中数据量…

人工智能 2023年6月28日
0071
Google Earth Engine (GEE) 提取某一位置时间序列值

前言做时间序列相关算法的同学，经常需要下载年际的数据来进行试验。而且算法研究的比较重要的步骤就是利用实测站点数据进行验证。本文讲述如何使用GEE下载指定卫星遥感/再分析数据集指定…

人工智能 2023年6月18日
0076
进化计算——进化策略（ES）

进化策略（Evolution Strategies，ES）作一个生物学的类比，进化策略将问题的解决方案模型化为物种（多重变量的种群个体正态分布在适应度空间中）。因此，这些种群有能…

人工智能 2023年7月18日
0073
Python-opencv fft、dct变换 + 幅度、相位谱结合实现艺术效果

快速傅里叶变换（FFT）原始二维傅里叶变换公式： np工具箱中有fft2函数可以对图像做二维快速傅里叶变换（不断分解成更小的、更容易的小蝶形变换替换大变换），但是要让输出的频谱图…

人工智能 2023年6月19日
00134
ChatGPT教程之 01 什么是ChatGPT革命性的对话生成新工具

今天，我想揭开 ChatGPT 的神秘面纱——GANs*（生成对抗网络）的一个迷人的新应用程序，它在 AI 社区中引起了很大的轰动。对于那些不熟悉 GAN 的人来说，它们是一种神…

人工智能 2023年7月31日
0047
YOLOv5的Tricks | 【Trick7】指数移动平均（Exponential Moving Average，EMA）

如有错误，恳请指出。文章目录 1. 移动平均法 2. 指数移动平均 3. TensorFlow中的EMA使用 4. Yolov5中的EMA使用这篇博客主要用于整理网上对EMA（…

人工智能 2023年6月16日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【论文精读】Debert:decoding-enhanced Bert with disentangled attention

大家都在看