模型之T5，UniLM，MASS，GPT

2023年5月28日上午8:43 • 人工智能 • 阅读 98

公司项目上有个文本生成的任务，难度比较大，花了相对不短的时间去熟悉这些模型，当然也没花太久，大概也就是读了下论文，以及网友们的一些介绍，现在记录总结下，后续应该会去阅读以及改写相关源码，便于做预训练以及fine-tune。

T5（text-to-text transfer transformer）

万物皆可text的感觉，先看一下下面的图：

在上图中，包含了四个任务，机器翻译、文本分类、相似度得分、文本生成。个人感觉T5主要是作者依托公司强大的计算能力，进行各种各样的对比实验，得出一系列的结论。

; 模型介绍

注意力机制

采用的注意力机制，目前注意力机制有以下的几种：

假设有X X X: x 1 , x 2 , x 3 , x 4 , x 5 , x 6 x_1,x_2,x_3,x_4,x_5,x_6 x 1 ,x 2 ,x 3 ,x 4 ,x 5 ,x 6 ，mask后作为模型输入的是x 1 , [ m a s k ] , x 3 , [ m a s k ] , [ m a s k ] , x 6 x_1,[mask],x_3,[mask],[mask],x_6 x 1 ,[m a s k ],x 3 ,[m a s k ],[m a s k ],x 6 ，对应不同的注意力方式如下：

; Fully-visible（全部可见）

这个是注意力机制是自回归模型，在进行x 2 , x 4 , x 5 x_2,x_4,x_5 x 2 ,x 4 ,x 5 的预测时，它们各自独立，互不干扰，跟transformer中的encoder（bert）一致；

Causal（因果相连）

这个是注意力机制的自编码模型，在进行x 2 , x 4 , x 5 x_2,x_4,x_5 x 2 ,x 4 ,x 5 的预测时，根据方向的不同，前面的输出会对后面的输出产生影响，例如x 4 x_4 x 4 受到x 2 x_2 x 2 的影响，x 5 x_5 x 5 受到x 4 x_4 x 4 、x 2 x_2 x 2 的影响；跟transformer中的decoder一致；

Causal with prefix（因果与前缀）

不知道怎么翻译，是fully-visible和causal的中和体，针对上面的例子就是x 4 x_4 x 4 、x 5 x_5 x 5 收到x 2 x_2 x 2 的影响，但是x 4 x_4 x 4 与x 5 x_5 x 5 互相独立，使用这种注意力机制的叫做部分自编码模型；

模型结构

; transformer(encoder-decoder)

encoder部分是fully-visible注意力，decoder是causal注意力机制

language model

是causal注意力机制

Prefix LM

使用的是causal with prefix注意力机制

实验结论

; 预训练方法

竞争选手：（LM， Bert-style，Deshuffing）
获胜选手： Bert-style
原因：
LM的不具有上下文信息，只具有前文信息，总体效果不好（GPT-2）；
Deshuffling（打乱句子顺序），训练学习难度太大，难以取得好的效果。

展示一个知乎回答：

mask策略

竞争选手：（单一mask， span mask， drop）
获胜选手： span mask
原因：单一mask信息的效果在文本生成任务的效果没有span mask，drop带来的效果，可能会出现多个候选词都合适，然后训练造成的结果不太好，猜测可能有误识别、过拟合的患处；span mask就是mask片段。

mask的比例

竞争选手：（10%，15%，25%，50%）
获胜选手： 15%
原因：花钱得出来的结果吧，So，bert的作者也是厉害

mask的长度

竞争选手：（2，3，5，10）
获胜选手： 3
原因：实验得出来的结果吧

其它

数据集（C4）

这对从互联网获取的数据，进行以下处理得到：

; UniLM

模型介绍

; 注意力机制

1. 双向注意力

图中的的bidirectional LM，互相影响，包含上下文信息；

2. 单向注意力

图中的Left-to-Right LM，当然Right-to-Left LM也是，叫做unbidirectional；

3. seq-to-seq注意力

1和2的中和吧，S1使用双向注意力，S2使用单项注意力。

公式

当中的核心值是M i j M_{ij}M i j ，它代表了不同的注意力机制所产生的影响。

; 模型结构

没啥说的，transformer走起

预训练目标

input: X：[x 1 x_1 x 1 ，x 2 x_2 x 2 ，x 3 x_3 x 3 ，x 4 x_4 x 4 ]
mask是x 3 x_3 x 3 ，此时预训练预测mask为x 3 x_3 x 3
如果使用bidirectional LM，此时x 1 x_1 x 1 ，x 2 x_2 x 2 的M值为0，x 4 x_4 x 4 的M值为-∞
如果使用unbidirectional LM，此时x 1 x_1 x 1 ，x 2 x_2 x 2 ，x 4 x_4 x 4 的M值为0

对于seq-to-seq LM
有一个短语对，[t 1 t_1 t 1 ，t 2 t_2 t 2 ]与[t 3 t_3 t 3 ，t 4 t_4 t 4 ，t 5 t_5 t 5 ]
input: X: [SOS]t 1 t 2 t_1t_2 t 1 t 2 [EOS]t 3 t 4 t 5 t_3t_4t_5 t 3 t 4 t 5 [EOS]
t 1 , t 2 t_1,t_2 t 1 ,t 2 受[SOS]、第一个[EOS]、t 1 t_1 t 1 和t 2 t_2 t 2 的影响，操作处理跟unbidirectional LM相同
t 3 , t 4 , t 5 , t 6 , t_3,t_4,t_5,t_6,t 3 ,t 4 ,t 5 ,t 6 ,[EOS]受他们前置的影响，操作处理跟bidirectional LM相同

预训练参数设置

1/3的bidirectional LM，1/3的sequence-to-sequence LM objective，1/6的从左到右、1/6的从右到左undirectional LM

; MASS

模型结构

其他没啥说的，随便找相关博客看看吧

; GPT

累了，先欠着吧，来来转转都是这些

其它

teacher forcing

有一定的概率选择当前时段的输出，作为下一时段的输入；也有可能选择下一段时段的原始标记，作为下一时段的输入；

Original: https://blog.csdn.net/lcomecon/article/details/122489982
Author: lcomecon
Title: 模型之T5，UniLM，MASS，GPT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530626/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习实战案例：新闻文本分类

深度学习多分类案例：新闻文本分类公众号：机器学习杂货店作者：Peter编辑：Peter 大家好，我是Peter~ 这里是机器学习杂货店 Machine Learning Groc…

人工智能 2023年6月16日
0092
使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

一、VOC2007数据集二、DOTA数据集三、将DOTA数据集的格式转换成VOC2007数据集的格式一、VOC2007数据集 VOC2007数据集的文件结构如下图所示。其中…

人工智能 2023年7月4日
00105
对Dataframe进行多列排序——sort_values

sort_values() 函数说明 pandas库的 sort_values() 函数可以对 Dataframe 的数据集按照某个字段中的数据进行排序。该函数可以指定列数据或行数…

人工智能 2023年7月7日
0080
unet网络详解

Unet 参考文献：U-Net: Convolutional Networks for Biomedical Image Segmentation 作者：Olaf Ronneber…

人工智能 2023年6月15日
0075
给公司省下了300万美元，只因选对了BI工具

作者：Mary Pratt编译：帆软数据应用研究院-grace全文共2600字，阅读需要7分钟。根据调查，商业智能成功的十大障碍包括软件相关问题、缺乏足够的预算、缺乏培训和专业知…

人工智能 2023年7月17日
0060
深度学习入门实践1

如果想简单test一下可以用一般来说比较热门的模型会有很多详细介绍的博客 2.读Readme 创建配置虚拟环境有requirements.txt最好（直接创环境，然后pip …

人工智能 2023年7月16日
0069
是由哪个机构开发的

问题：是由哪个机构开发的？详细介绍：本问题研究了某个机构开发的系统或算法。该算法可以通过输入数据集来解决各种问题，包括分类、回归、聚类等。本文将详细介绍该算法的原理、公式推导、…

人工智能 2023年12月31日
0039
常用工具库

Python代码格式化工具：五彩斑斓的 Black —— Python 代码格式化工具 – muzing的杂货铺在线Python格式化工具：Black Playgro…

人工智能 2023年6月4日
0088
【(强推)李宏毅2021/2022春机器学习课程】2022-语音与影像上的神奇自监督学习模型【精】

文章目录 Review：Self-supervised Learning for Text Self-supervised Learning for Speech Self-sup…

人工智能 2023年5月25日
0078
python爬虫1——Requests库

我相信，大家既然想学python，那必然对爬虫有一定的了解，爬虫，是一门技术，大多数编程语言都能写爬虫。但是，为什么这么多人会选择学习python来写爬虫程序呢？python的魅…

人工智能 2023年7月16日
0070
无tensorflow，在pytorch下使用tensorboard可视化工具报错：Could not load dynamic library ‘cudart64_110.dll‘； dlerror

文章目录报错信息：真实原因解决方案 tensorboard完整demo代码：在pycharm终端下输入命令（如果是在cmd中输入命令的话，记得一定要把cmd中的目录切换成本…

人工智能 2023年5月25日
0097
pythonslice_shift_Pandas 解决dataframe的一列进行向下顺移问题

最近做比赛，有时候需要造出新的特征，而这次遇到的问题是将一列数据往下顺移一位。同时将开头缺失的那一个数据用其他方式填充。 df[‘feature’].shi…

人工智能 2023年7月7日
0054
Yolov5-6.0详细教程（一）下载与准备工作

一、项目测试检查刚下载的代码能否正常运行。解压yolov5-6.0.zip，Anaconda创建一个python3.7.0环境命名为pytorch3.7，用pycharm打开yo…

人工智能 2023年5月23日
00102
tensorflow项目中使用tfrecods格式数据集文件等问题小结

最开始参考的两篇博客： VOC文件 TFRecord文件生成\转换 SSD目标检测实战（TF项目）——VOC2007（注：这个项目中是有对应的转换程序，但该程序有contrib模…

人工智能 2023年5月25日
0077
数据分析必备的五大能力

良好的沟通能力对数据分析师来说，良好的沟通能力是他们成功的基础。数据分析人员在整个企业链条中属于承上启下的位置，要主动或被动的接触很多其他员工，和这些不同部门、不同职位的员工沟…

人工智能 2023年6月11日
0091
树莓派OLED模块的使用教程大量例程详解

简介 Python有两个可以用的OLED库 [Adafruit_Python_SSD1306库]—>只支持SSD1306 [Luma.oled库]—>支持 SSD130…

人工智能 2023年6月12日
00152

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

模型之T5，UniLM，MASS，GPT

; 模型介绍

注意力机制

; Fully-visible（全部可见）

Causal（因果相连）

Causal with prefix（因果与前缀）

模型结构

; transformer(encoder-decoder)

language model

Prefix LM

实验结论

; 预训练方法

mask策略

mask的比例

mask的长度

其它

数据集（C4）

模型介绍

; 注意力机制

1. 双向注意力

2. 单向注意力

3. seq-to-seq注意力

公式

; 模型结构

预训练目标

预训练参数设置

; MASS

模型结构

; GPT

其它

teacher forcing

大家都在看