【BERT类预训练模型整理】

2023年5月30日下午6:38 • 人工智能 • 阅读 62

BERT类预训练模型整理

1.BERT的相关内容
*
1.1 BERT的预训练技术
–
- 1.1.1 掩码机制
- 1.1.2 NSP（ Next Sentence Prediction）
1.2 BERT模型的局限性
2. RoBERTa的相关内容
*
2.1 RoBERTa的预训练技术
–
3.ERNIE
*
3.1 ERNIE的预训练技术
–
- 3.1.1 Knowledge Masking Task
- 3.1.2 多个异源语料
4. SpanBERT的相关内容
*
4.1 SpanBERT的预训练技术
–
5. ALBERT的相关内容
*
5.1 ALBERT中主要有三个改进方向。
–
6. MacBERT的相关内容
*
6.1 研究背景
6.2 MacBERT的预训练技术
–
- 6.2.1 MLM：
- 6.2.2 NSP：
6.3 MLM的替换策略实验对比

在本帖中，小阿奇将从中文预训练模型的角度去回顾最近自然语言处理领域中代表性的预训练语言模型的技术，自己也进行一个详细的整理

1.BERT的相关内容

BERT(来自transformer的双向编码器表示)(Devlin等人，2019年)在自然语言处理研究中被证明是成功的。 BERT通过所有Transformer层左右上下文共同调节，来预训练深度双向表示。 BERT主要包括两个预训练任务：mask语言模型(MLM)和下一句预测(NSP)。

1.1 BERT的预训练技术

1.1.1 掩码机制

给定一个句子，会 随机 Mask 15%的词，然后让 BERT 来预测这些 Mask 的词。在输入侧引入[Mask]标记，会导致预训练阶段和 Fine-tuning 阶段不一致的问题，因此在论文中为了缓解这一问题，采取了如下措施：

如果某个 Token 在被选中的 15%个 Token 里，则按照下面的方式随机的执行：

80%&#x7684;&#x6982;&#x7387;&#x66FF;&#x6362;&#x6210;[MASK]&#xFF0C;&#x6BD4;&#x5982; my dog is hairy &#x2192; my dog is [MASK]

10%&#x7684;&#x6982;&#x7387;&#x66FF;&#x6362;&#x6210;&#x968F;&#x673A;&#x7684;&#x4E00;&#x4E2A;&#x8BCD;&#xFF0C;&#x6BD4;&#x5982; my dog is hairy &#x2192; my dog is apple

10%&#x7684;&#x6982;&#x7387;&#x66FF;&#x6362;&#x6210;&#x5B83;&#x672C;&#x8EAB;&#xFF0C;&#x6BD4;&#x5982; my dog is hairy &#x2192; my dog is hairy

1.1.2 NSP（ Next Sentence Prediction）

预测下一句（NSP）模型通过添加 Next Sentence Prediction的预训练方法来捕捉两个句子的联系，如有A和B两个句子，B有50%的可能性是A的下一句，训练模型是为了预测B是不是A的下一句，使模型增强对上下文联系的能力。

1.2 BERT模型的局限性

1.MASK掉的字词是独立的个体，未考虑词与词之间的连贯性与整体性；对于中文预训练模型，由于中文段落词语之间具有整体连贯性，比如哈尔滨，如果单单MASK掉哈【MASK】滨，远不如三个字一起MASK掉【MASK】【MASK】【MASK】的效果好，所以BERT的单个token mask会对段落的整体性和连贯性带来一定影响；
2.MASK机制会影响预训练和微调之间的协调性，因为预训练时会出现特殊的[MASK]，但是它在下游的 fine-tune 中不会出现，这就出现了预训练阶段和 fine-tune 阶段不一致的问题。

RoBERTa的相关内容

RoBERTa (A Robustly Optimized BERT approach)模型是BERT 的改进版

2.1 RoBERTa的预训练技术

RoBERTa在BERT的基础上主要在 MLM掩码方式和 NSP下一句预测两大预训练任务上进行了改进，主要为以下几点：

2.1.1动态掩码（Dynamic Masking）

BERT 依赖随机掩码和预测 token。原版的 BERT 实现在数据预处理期间执行一次掩码，得到一个静态掩码。而 RoBERTa 使用了动态掩码：每次向模型输入一个序列时都会生成 新的掩码模式。这样，在大量数据不断输入的过程中，模型会逐渐适应不同的掩码策略，学习不同的语言表征。

2.1.2取消NSP预训练任务

数据生成方式和任务改进：取消下一个句子预测，并且数据连续从一个文档中获得。
RoBERTa通过实验发现，去掉NSP任务将会提升down-stream任务的指标，如下图所示

—真实句子过短，不如拼接成句子段
—无NSP任务，略好过有NSP
— 不跨文档好过跨文档

; 2.1.3 大批次（Larger Batch Size）

RoBERTa通过增加训练过程中Batch Size的大小，发现提高down-stream的指标
同时 RoBERTa也在数据大小以及训练参数training step 进行调整

3.ERNIE

ERINE是百度发布一个预训练模型，它通过引入三种级别的Knowledge Masking帮助模型学习语言知识，在多项任务上超越了BERT。在模型结构方面，它采用了Transformer的Encoder部分作为模型主干进行训练

3.1 ERNIE的预训练技术

3.1.1 Knowledge Masking Task

ERNIE 模型通过建模海量数据中的实体概念等先验语义知识，学习真实世界的语义关系。具体来说，ERNIE 模型通过对 词、实体等语义单元的掩码，使得模型学习完整概念的语义表示。相较于 BERT 学习原始语言信号，ERNIE 直接对先验语义知识单元进行建模，增强了模型语义表示能力。比如：

Learned by BERT ：哈 [mask] 滨是 [mask] 龙江的省会，[mask] 际冰 [mask] 文化名城。
Learned by ERNIE：[mask] [mask] [mask] 是黑龙江的省会，国际 [mask] [mask] 文化名城

在 BERT 模型中，通过『哈』与『滨』的局部共现，即可判断出『尔』字，模型没有学习与『哈尔滨』相关的知识。而 ERNIE 通过学习词与实体的表达，使模型能够建模出『哈尔滨』与『黑龙江』的关系，学到『哈尔滨』是『黑龙江』的省会以及『哈尔滨』是个冰雪城市。

3.1.2 多个异源语料

ERNIE还采用 多个异源语料帮助模型训练，例如对话数据，新闻数据，百科数据等等。通过这些改进以保证模型在字词、语句和语义方面更深入地学习到语言知识。

SpanBERT的相关内容

SpanBERT对Bert的改进主要体现在：
对 mask方式的改进， 丢弃NSP任务和增加SBO（Span Boundary Objective）任务

4.1 SpanBERT的预训练技术

4.1.1Span mask方案

Bert是随机mask输入序列中的字，这样能很简单地推测出字之间的搭配，这样会让本来应该有强相关的一些连在一起的字词，在训练时是割裂开来的。难以建立词中各个字之间的关联信息。
SpanBERT的做法是根据几何分布，先随机选择一段（span）的长度，之后再根据均匀分布随机选择这一段的起始位置，最后按照长度遮盖。文中使用几何分布取 p=0.2，最大长度只能是 10，利用此方案获得平均采样长度分布。
这样做的目的是：前不久的 MASS 模型，表明可能并不需要想Bert-wmm或者ERNIE那样mask，随机遮盖可能效果也很好。具体如下图所示：

; 4.1.2 加入SBO 训练目标

Span Boundary Objective 是该论文加入的新训练目标，希望被遮盖 Span 边界的词向量，能学习到 Span 的内容。具体做法是，在训练时取 Span 前后边界的两个词，这两个词不在 Span 内，然后用这两个词向量加上 Span 中被遮盖掉词的位置向量，来预测原词。

这样做的目的是：增强了 BERT 的性能，为了让模型让模型在一些需要 Span 的下游任务取得更好表现，特别在一些与 Span 相关的任务，如抽取式问答。

4.1.3 去除NSP任务

XLNet 中发现NSP不是必要的，而且两句拼接在一起使单句子不能俘获长距离的语义关系，所以作者剔除了NSP任务
这样做的目的是：剔除没有必要的预训练任务，并且使模型获取更长距离的语义依赖信息。

ALBERT的相关内容

对于预训练模型，提升模型的大小是能对下游任务的效果有一定提升，然而如果进一步提升模型规模，势必会导致显存或者内存出现OOM的问题，长时间的训练也可能导致模型出现退化的情况。为此谷歌的研究者设计了「一个精简的 BERT」（A Lite BERT，ALBERT），参数量远远少于传统的 BERT 架构。
ALBERT主要对BERT做了3点改进，缩小了整体的参数量，加快了训练速度，增加了模型效果。

ALBERT也是采用和BERT一样的Transformer的encoder结果，激活函数使用的也是GELU，在讲解下面的内容前，我们规定几个参数，词的embedding我们设置为E，encoder的层数我们设置为L，hidden size即encoder的输出值的维度我们设置为H，前馈神经网络的节点数设置为4H，attention的head个数设置为H/64。

; 5.1 ALBERT中主要有三个改进方向。

5.1.1 对Embedding因式分解（Factorized embedding parameterization）

在BERT中，词embedding与encoder输出的embedding维度是一样的都是768。但是ALBERT认为，词级别的embedding是没有上下文依赖的表述，而隐藏层的输出值不仅包括了词本生的意思还包括一些上下文信息，理论上来说隐藏层的表述包含的信息应该更多一些，因此应该让H>>E，所以ALBERT的词向量的维度是小于encoder输出值维度的。

在NLP任务中，通常词典都会很大，embedding matrix的大小是E×V，如果和BERT一样让H=E，那么embedding matrix的参数量会很大，并且反向传播的过程中，更新的内容也比较稀疏。

结合上述说的两个点，ALBERT采用了一种因式分解的方法来降低参数量。首先把one-hot向量映射到一个低维度的空间，大小为E，然后再映射到一个高维度的空间，说白了就是先经过一个维度很低的embedding matrix，然后再经过一个高维度matrix把维度变到隐藏层的空间内

5.1.2 跨层的参数共享（Cross-layer parameter sharing）

在ALBERT还提出了一种参数共享的方法，Transformer中共享参数有多种方案，只共享全连接层，只共享attention层，ALBERT结合了上述两种方案，全连接层与attention层都进行参数共享。

以base为例，BERT的参数是108M，而ALBERT仅有12M，但是效果的确相比BERT降低了两个点。由于其速度快的原因，我们再以BERT xlarge为参照标准其参数是1280M，假设其训练速度是1，ALBERT的xxlarge版本的训练速度是其1.2倍，并且参数也才223M，评判标准的平均值也达到了最高的88.7

; 5.1.3 句间连贯（Inter-sentence coherence loss）

BERT的NSP任务实际上是一个二分类，训练数据的正样本是通过采样同一个文档中的两个连续的句子，而负样本是通过采用两个不同的文档的句子。该任务主要是希望能提高下游任务的效果，例如NLI自然语言推理任务。但是后续的研究发现该任务效果并不好，主要原因是因为其任务过于简单。NSP其实包含了两个子任务，主题预测与关系一致性预测，但是主题预测相比于关系一致性预测简单太多了，并且在MLM任务中其实也有类型的效果。

在ALBERT中，为了只保留一致性任务去除主题识别的影响，提出了一个新的任务 sentence-order prediction（SOP），SOP的正样本和NSP的获取方式是一样的，负样本把正样本的顺序反转即可。SOP因为实在同一个文档中选的，其只关注句子的顺序并没有主题方面的影响。并且SOP能解决NSP的任务，但是NSP并不能解决SOP的任务，该任务的添加给最终的结果提升了一个点。

5.1.4 移除dropout

除了上面提到的三个主要优化点，ALBERT的作者还发现一个很有意思的点，ALBERT在训练了100w步之后，模型依旧没有过拟合，于是乎作者果断移除了dropout，没想到对下游任务的效果竟然有一定的提升。这也是业界第一次发现dropout对大规模的预训练模型会造成负面影响。

MacBERT的相关内容

6.1 研究背景

作者认为大多数表现最好的模型都是基于BERT及其变体，表明预训练的语言模型已成为自然语言处理领域中的新基本组件;

训练transformer-based预训练模型比较困难；要让特征强大的BERT大型模型，带有3.3亿个参数的24层transformer收敛，需要高内存的计算设备，例如TPU，这非常昂贵;

大多数的语言模型是基于英语的，很少有工作致力于提升中文语言模型的提升；

6.2 MacBERT的预训练技术

6.2.1 MLM：

使用Whole Word Masking、N-gram Masking：single token、2-gram、3-gram、4-gram分别对应比例为0.4、0.3、0.2、0.1；
由于finetuning时从未见过[MASK]token，因此使用相似的word进行替换。使用工具Synonyms toolkit 获得相似的词。如果被选中的N-gram存在相似的词，则随机选择相似的词进行替换，否则随机选择任意词替换；
对于一个输入文本，15%的词进行masking。其中80%的使用相似的词进行替换，10%使用完全随机替换，10%保持不变。
MacBERT的掩码方式如下图所示：

; 6.2.2 NSP：

采用ALBERT提出的SOP替换NSP，通过切换两个连续句子的原始顺序来创建负样本。作者在后面消融这些修改，以更好地证明每个组件的贡献。

回顾最近自然语言处理领域代表性的预训练语言模型的技术

6.3 MLM的替换策略实验对比

作者对了探究MLM掩码的最用和影响，做了以下实验：
遵循输入序列原始15％的mask比例，其中10％的mask token保持不变。根据剩余的90％mask token，我们分为四类。

•MacBERT：将80％token替换为它们的相似词，并将10％token替换为随机词。
•随机替换：将90％token替换为随机词。
•部分 mask：原始的BERT实现，其中80％的token替换为[MASK] token，而10％的token替换为随机单词。
•所有mask：90％的token替换为[MASK] token。

在CMRC 2018和DRCD上不同的MLM任务的结果

结果如图所示。预训练模型主要使用[MASK]进行masking(即部分mask和全部mask)，从而导致性能较差，这表明预训练与微调是一个影响整体性能的实际问题。

Original: https://blog.csdn.net/Wwwwwww527/article/details/124739732
Author: 帅奇奇的博客
Title: 【BERT类预训练模型整理】

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/544547/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据分析笔记05

在pandas模块中，有很多索引方式来定位和选择DataFrame中的数据行索引一列和多列数据访问，列索引 .loc .iloc一列一列地操作也可以一次性访问多列数据dat…

人工智能 2023年7月8日
0054
第一次写计算机论文无从下手怎么办？（二） – 易智编译EaseEditing

书接上文，上次说到了要点3。要点4：在描述你的结果时要清晰，简洁和客观。 3.3 引言部分写到引言时，你的论文初稿已经完成了一半，是时候更新你的大纲了。在描述你的方法和结果时，…

人工智能 2023年6月28日
0069
python中的pd是什么意思_python pd.crosstab在处理时间序列文本数据的用处

在优矿上的-量化分析师的Python日记中看到一个函数很不错–pd.crosstab 。因为我们平时取到的多股数据可能如以下所示；取两股为例： Sec1， Sec2 …

人工智能 2023年7月7日
0071
FPGA图像处理-3×3卷积模板

简介卷积是图像处理中很常见的一种操作，3×3是最常见的窗口大小。这里要注意，输入像素此时作为第三行数据输入3×3窗口，最下面的行缓存输出的才是第一行像素，上…

人工智能 2023年6月17日
0064
matlab回归法建模详解 | 《matlab数学建模方法与实践（第三版）》学习笔记

目录一元线性回归一、采用最小二乘回归二、采用LinearModel.fit函数进行线性回归三、采用regress函数进行回归一元非线性回归一、对数形式二、指数形式多…

人工智能 2023年6月17日
0096
Pytorch快速入门手册

一、张量生成（1）生成空的53的张量：torch.empty(5, 3)（2）生成0-1分布的53的张量：torch.rand(5, 3)（3）生成一个全零的5*3的张量：…

人工智能 2023年7月14日
0064
ROS中的分布式通讯（树莓派与虚拟机）

ROS中的分布式通讯（树莓派与虚拟机）一、前言二、树莓派连接WIFI 三、查找局域网下的其他设备 IP 四、确定可以ping通五、配置文件修改六、配置主机 IP 七、配置从…

人工智能 2023年6月10日
0083
Keras深度学习实战（27）——循环神经详解与实现

Keras深度学习实战（27）——循环神经详解与实现 * – 0. 前言 – 1. 循环神经网络 (Recurrent Neural Network, RN…

人工智能 2023年6月16日
0066
TensorFlow-similarity 学习笔记10

TensorFlow-similarity 学习笔记10 2021SC@SDUSC 目标检测是计算机视觉中的一项重要任务。使用深度学习进行对象检测可以产生高度准确的模型，但开发人员…

人工智能 2023年5月25日
0055
java计算机毕业设计springboot+vue青少年编程在线考试系统

项目介绍 21世纪的今天,随着社会的不断发展与进步,人们对于信息科学化的认识,已由低层次向高…

人工智能 2023年6月28日
0075
【OpenCV】Chapter6.频率域图像滤波

最近想对OpenCV进行系统学习，看到网上这份教程写得不错，于是跟着来学习实践一下。【youcans@qq.com, youcans 的 OpenCV 例程, https://yo…

人工智能 2023年6月20日
0077
sklearn使用总结

1.1加载数据 1.2特征工程 1.3训练集与验证集分类 1.4模型训练 1.5验证集预测 1.6模型评估 1.7模型参数调整 1.8模型保存与调用 sklearn 的实现使用了n…

人工智能 2023年7月17日
0068
pandas

目录 1，两种数据结构 1.1 Series 1.1.1 定义 1.1.2 创建 1.1.3 基本用法 1.2 DataFrame 1.2.1 定义 1.2.2 创建 1.2.3 …

人工智能 2023年7月8日
0052
论文解读：DETR 《End-to-end object detection with transformers》，ECCV 2020

论文解读：DETR 《End-to-end object detection with transformers》，ECCV 2020 * – 0. 论文基本信息 &#…

人工智能 2023年7月12日
0084
【OpenCV 例程 300 篇】104. 运动模糊退化模型

专栏地址：『youcans 的 OpenCV 例程 300篇 – 总目录』【第 7 章：图像复原与重建】104. 运动模糊退化模型105. 湍流模糊退化模型【you…

人工智能 2023年6月20日
0073
AI 机器学习实践总结

机器学习基础什么是机器学习机器学习是一种从数据生成规则、发现模型，来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数，而不是程序员直接编写函数的技术)…

人工智能 2023年7月17日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30