Language Model Pretrain 方法

2023年5月28日上午5:33 • 人工智能 • 阅读 64

现在pretrain- fine-tune模式已经成为了去解决NLP任务的常用方法，下面总结了一些常见的pretrain 方法

1. Next Token Predict

下一个token的预测，即给定一部分的seq，然后预测给定的seq的下一个token，AR（AUTO Regress）的模型，预训练的方式都是Next Token Predict，比如ELMO，ULMFIT，GPT，Megatron，Turing NLG，其中GPT，Megatron，Turing NLG使用self-Attention去实现的，但是做attention的时候，使用类似于MASK Multi- Attention方式

2. MLM

MASK Language Model，遮罩语言模型，是指将输入中的一部分的token进行MASK，然后再让模型进行predict，AE（AUTO Encoder）的模型，预训练方式大多都是使用这种方式进行预训练，比如BERT，RoBERT等

3.NSP

NSP：Next Sentence Predict，给定两个句子，让模型去预测这两个句子是否是上下文相连，BERT的另外一种预训练方法就是NSP，但是后来在Robert和XLNET等文章中被证明不是很有用

4. Whole Word Mask（WWM）

在BERT中，做MASK的时候，是随机MASK一些token，但是在WWM，是MASK整个词语，然后再让模型predict出来，例如：我爱中国，在BERT中mask是这样的，我爱 [MASK] 国，但是在WWM中的mask是这样的，我爱 [MASK] [MASK]

5. SOP

SOP：Sentence Order Predict，句子顺序预测，将句子的顺序进行打乱，让模型去预测句子的顺序，使得模型可以学习到句子级别的信息，在 ALBERT有使用

6. Name Entity Mask/Phrese Mask/Noun Mask

Name Entity MASK,是在输入中MASK句子中的实体，例如，中国的首都是北京，进行MASK后可能为：中国的首都是 [MASK] [MASK],与WWM的不同之处在于，Name Entity MASK被MASK的是实体，而WWM被mask的是词语，而词语不一定是实体，Name Entity Mask在百度出的ERNIE（Enhanced Represent Through Knowledge Integration）论文中有用到

Phrase Mask：对输入的句子中mask整个短语

Noun Mask：对输入的句子中mask句子中的名词

7. Span Mask

Span Mask，对输入句子中的一部分连续的token进行mask，然后让模型预测被mask部分的信息，Span BERT就是运用该方法，如下图所示

将w4-w7进行mask，输入到Span BERT中，然后再将w3和w8对应的embedding输入到SBO中，再给定一个2（表示被mask的范围的第2个token），让SBO预测出w5

span Bert中，被mask的范围是按照一定的概率进行的，如下图中的span Length（# of words）所示

MASS（Mask Sequence to sequence pre-trainning）也有用到Span mask

8. pretrain by Translation

使用机器翻译的方法去预训练语言模型，如下图所示：

但是该方法需要大量的平行语料

9. Replace Token Detection

先将一些token替换为其他token，然后让模型去预测哪些token是被替换，替换的token必须是符合语法规则的，因为不合符语法规则，模型很容易就判断出来，因此使用一个很小的BERT模型，将替换的token进行mask，然后再让small bert预测出来，再输入到ELECTRA，让模型去预测输入的token，哪些是被替换的，哪些是没有被替换的。

ELECTRA就是使用该方式，如下图所示

Original: https://blog.csdn.net/qq_28935065/article/details/123467182
Author: qq_28935065
Title: Language Model Pretrain 方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530017/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

回归逻辑（二）

4 代价函数对于线性回归模型，我们定义的代价函数是所有模型误差的平方和。理论上来说，我们带入到这意味着我们的代价函数有许多局部最小值，这将影响梯度下降算法寻找全局最小值。 h…

人工智能 2023年6月18日
0051
深度强化学习技术概述

深度强化学习介绍强化学习主要用来学习一种最大化智能体与环境交互获得的长期奖惩值的策略，其常用来处理状态空间和动作空间小的任务，在如今大数据和深度学习快速发展的时代下，针对传统强化…

人工智能 2023年6月25日
0077
【Computer Vision】图像数据预处理详解

; 【Computer Vision】图像数据预处理详解活动地址：CSDN21天学习挑战赛作者简介：在校大学生一枚，华为云享专家，阿里云星级博主，腾云先锋（TDP）成员，云曦智…

人工智能 2023年6月23日
0063
如何处理在Framework中的训练数据的并行和分布式加载

问题描述在深度学习中，训练数据的加载是模型训练的关键步骤之一。对于在Framework（框架）中进行训练的任务，如何并行和分布式加载训练数据是一个重要的问题。本文将详细介绍如何处…

人工智能 2024年1月1日
0043
RTX3070显卡笔记本运行 torch.cuda.device_count() 显示 0 解决办法、Tensorflow包安装全解

RTX3070显卡笔记本运行 torch.cuda.device_count() 显示 0 解决办法、Tensorflow包安装全解注：第一次使用 NAIDIA显卡的笔记本，要使…

人工智能 2023年6月17日
00176
R语言使用str函数查看数据对象的结构(structure)、以dataframe为例输出、样本个数、变量个数、变量数据类型、示例数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0057
3D卷积神经网络详解

1 3d卷积的官方详解 2 2D卷积与3D卷积 1）2D卷积 2D卷积：卷积核在输入图像的二维空间进行滑窗操作。 2D单通道卷积对于2维卷积，一个3*3的卷积核，在单通道图像上进…

人工智能 2023年5月26日
00570
Anaconda+tensorflow+cpu安装教程

声明：此教程为南邮的21届研一小菜鸟编写，如有需要改进的地方，欢迎交流！ 1、Anaconda安装教程直接从我分享的百度网盘下载。 [En] Download directly …

人工智能 2023年5月25日
0072
PMP每日一练 | 考试不迷路-11.12（包含敏捷+多选）

11.27PMP考试倒计时 15天每日5道PMP习题助大家上岸PMP！题目1-2： 1.在项目的中途，产品负责人从发起人那里了解到：有一个主要组件，它已经完成了 20%，但…

人工智能 2023年6月27日
0064
“Open3d:ImportError: DLL load failed: 找不到指定的模块”解决思路和方法

（1）问题分析：在python3.9的pip中下载open3d和open3d-python，版本为0.15.1和0.3.0.然后导入open3d包，import open3d a…

人工智能 2023年7月31日
0081
Python提取PDF中的信息，写入Excel

今天为大家分享一个真实的Python自动化办公案例。完整版代码，文末获取。今天接到人力资源部同事的需求，想把他人投递的PDF简历资料里的关键信息数据，提取到Excel表中汇总。…

人工智能 2023年7月15日
0038
Spark与Pandas中DataFrame对比（详细）

工作方式单机single machine tool，没有并行机制parallelism 不支持Hadoop，处理大量数据有瓶颈分布式并行计算框架，内建并行机制paralleli…

人工智能 2023年6月2日
00106
OpenCV-Python教程：颜色图(applyColorMap)[只需几行代码生成22种风格各异的彩色图]

返回OpenCV-Python教程原文链接：http://www.juzicode.com/opencv-note-color-map-applycolormap 在OpenCV…

人工智能 2023年5月26日
00154
使用SimpleITK读取、保存、处理nii文件

目录前言 nii格式读取nii成numpy格式将numpy格式保存成nii 什么是origin、Direction、Spacing，以及如何设置它们示例重采样 * 重采样…

人工智能 2023年7月26日
0087
maskRcnn环境配置(anaconda)（win10）及成功运行Mask_RCNN-2.1的demo.ipynb

一、 maskRcnn环境配置（win10）先看我成功运行的配置：python3.6.13tensorflow-gpu 1.5.0scipy1.2.1Keras2.2.0cuda…

人工智能 2023年5月23日
0076
MXNe

问题介绍 MXNet是一种深度学习框架，其中的MXNe问题是指如何使用MXNet框架来实现对神经网络的反向传播算法。反向传播是深度学习中的一种核心方法，用于更新网络参数以最小化损失…

人工智能 2023年12月31日
0033

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31