预训练模型–GPT

2023年5月28日上午9:33 • 人工智能 • 阅读 111

why预训练+finetune

目前在nlp领域，比较流行的一种方式就是”pretrain+finetune”
为什么是这种模式呢？

在nlp领域大量数据是无标签的，只有小量数据是有标签的，而大量数据可以帮助模型获得更好的效果（泛化能力），所以在pretrain阶段采用大量无标签的数据无监督学习（在此阶段模型没有明确的下游任务目标，学习的是普适的文本特征），而再在finetune阶段再根据不同具体任务使用小量有标签的数据有监督微调；
在nlp领域任务种类并不只有一种，也就是说上面提到的finetune阶段任务是各种各样的，这样如果没有pretrain，只能像之前word2vec那样给finetune提供单个词的特征向量，而无法关注整体上下文（这里顺便提一下上周的ELMO是第一个”pretrain+finetune”方式的，就是在pretrain阶段获取了上下文信息）

各种预训练模型的区别

上周提到的ELMO是采用了加入双层双向LSTM的方式进行预训练，获得词的上下文信息，本文要提及的BERT和GPT则是使用transformer替代LSTM，相对而言，transformer鲁棒性更好，可以叠加计算的层数更多，在长距离的表现也更好。（另外，GPT和BERT与ELMO还有一个最本质的区别，就是ELMO pretrain的结果是fintune模型的一个特征输入，而GPT和BERT就是在fintune模型上做pretrain）

GPT和BERT之间的区别则是：GPT选择了transformer中decoder阶段结构作为预训练结构；而BERT选择了transformer中encoder阶段结构作为预训练结构。
这样首先需要知道encoder结构和decoder结构之间的利弊：

encoderdecoder双向网络单向网络没有天然的预测目标（Bert自己构造mask）有天然的预测目标（天然mask+预测下一个词）能看到所有词（更适合做语言理解）只能看到一个词前面的词（更适合做语言预测）

上述这些优缺点其实也就是GPT和BERT的主要区别。

; GPT

GPT-整体架构

如上面所说，GPT使用了transformer的decoder部分，每层Trms构成了一个自左向右单层的transformer，总共堆叠了12层Trms。
GPT去掉了原先decoder中使用encoder进行attention的部分（因为没使用encoder啊），每层Trms只有一个 Masked Multi Self-Attention（768 维向量+12个Attention Head）和一个 Feed Forward，如下图所示：

; GPT-pretrain

训练目标：给定一个无监督的标记语料库U={u1,u2…un} ，我们使用一个标准的语言建模目标来最大化以下可能性：

具体训练方式如前面所说，将token的词嵌入和位置嵌入作为输入h0（0表示第一层），然后叠加12层transformer，最后通过softmax获得预测的下一个单词的概率。
预训练模型--GPT

其中U=(u-k，……，u-1)是当前token前的k个tokens，n是模型层数（12层），We是tokens词嵌入的embedding矩阵（句子长度 _embed纬度），Wp是位置嵌入的embedding矩阵（语料库词汇大小_embed纬度）。（两个embedding均为随机初始化）。

GPT-finetune

我们假设一个有标记的数据集C，由一组输入tokens序列x1，……，xm，还有一个标签y组成，
将这些tokens输入pretrain的模型获得最终层transformer的输出hlm，
然后将其输入到一个附加的线性输出层，通过参数Wy来预测标签y：

最终有监督finetune期望的目标是，最大化以下目标：

在实验中发现，将pretrain中的目标L1一起加入进来可以更好的范化监督模型，而且可以加速收敛，所以最终finetune阶段的目标为：
预训练模型--GPT

总的来说，在finetune阶段，我们需要的唯一额外参数是Wy和分隔符标记的tokens。

; GPT- Task-specific input transformations

对于文本分类任务，直接使用上述的finetune即可，但对于其他任务，如文本蕴含、文本相似度、问答等，由于我们的pretrain模型是在连续的文本序列上进行训练的，所以我们需要进行一些修改来将其应用于这些任务。
为了防止模型有比较大的改动，主要对输入进行了改动，如下图所示，这些改动包括增加了新的linear层，以及为tokens之间增加了start、delim、extract这些分隔符、标识位。

下面为三种任务的输入改动：

文本蕴含任务：（文本蕴含是指当一个句子p为前提时，可以推断出另一个句子h假设为真）输入改动为：将前提句子p和假设句子h的tokens序列连接起来，中间有一个分隔符标记（delim）。
文本相似任务：对于相似任务，被比较的两个句子没有固有的排序。为了反映这一点，论文修改了输入序列，让两种可能的句子顺序进行拼接(在两个句子中间加分隔符delim )，分别独立过transformer，生成两个序列的表示hml，然后按位相加，再过线性层和softmax层。
问答、推理：对于这些任务，存在一个上下文文档z、一个问题q和一组可能的答案{ak}。论文将文档上下文和问题与每个可能的答案连接起来，并添加一个分隔符$在中间得到t [z; q; $; ak].。这些序列中的每个都用GPT模型独立处理，然后通过一个softmax层进行归一化，以产生可能答案的输出概率分布。

Original: https://blog.csdn.net/weixin_39860046/article/details/122158792
Author: 码源
Title: 预训练模型–GPT

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530797/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【《2021机器学习-李宏毅》学习笔记】

文章目录 * – 简介 – 内容示意* 个人学习笔记* – 01-Regression – 02.1-deeplearning-ge…

人工智能 2023年6月23日
0062
密码学奇妙之旅、02 混合加密系统、AES、RSA标准、Golang代码

CTR 计数器模式计数器模式CTR是分组密码模式中的一种。通过将逐次累加的计数器进行加密来生成密钥流的流密码。每次加密时会生成一个不同的值来作为计数器的初始值。可以事先进行加密…

人工智能 2023年6月4日
0076
python row column_Python DataFrame 根据列(column)值选择查找行(row)的方法及示例代码

1、通过loc使用isin、==或!=查询方法#一般查询 df.loc[df[‘column_name’] == some_value] df.loc[df…

人工智能 2023年7月7日
0073
win10 rtx3060安装cuda11.1+cudnn11.1+anaconda换源

rtx3060深度学习环境搭建下载文件 anaconda换源开始安装 * 查看cl.exe 安装CUDA11.1 安装cudnn11.1 安装pytorch 安装torchvi…

人工智能 2023年7月12日
0089
R语言数据格式转换函数、数据类型判断函数（numeric、character、vector、matrix、data.frame、factor、logical）、R语言数据格式类型转换

如果要把一个大量的数据（如一个数据_框）中所有的 _numeric_型变量转为f _actor_型变量，可以使用如下代码： `R my _data Original: http…

人工智能 2023年7月17日
0073
人脸生成对抗+人脸识别流程+insightface

一、人脸生成对抗传统的DeepFake 需要大量的原始数据，并且要经过好几天的训练才能达到高质量的效果。黎颢团队提出，将DeepFake和他此前做的怕GAN结合到一起，做了一个新…

人工智能 2023年6月25日
0079
Go语言学习笔记-A Tour of Go 练习笔记-Loops and Functions

Exercise: Loops and Functions 题目： As a way to play with functions and loops, let’s i…

人工智能 2023年6月28日
0070
【论文阅读】CLIP：Learning Transferable Visual Models From Natural Language Supervision —— 多模态，视觉，预训练模型

讲解CLIP的文章和博客已经非常多了，因此本博客不再逐字逐句解释或者翻译本文的内容，而是主要记录一些关键点，包括博主在初次阅读这篇文章时所遇到的问题，以及难以理解透彻的地方。故本博…

人工智能 2023年6月25日
0073
【情感分析 PyTorch】RNN于IMDB数据集上的表示

文章目录 RNN是啥 IMDB GloVe 代码 RNN是啥 Recurrent Neural Network(RNN)，循环神经网络的优势在于能够处理任意长度的输入（或者说流式(…

人工智能 2023年7月13日
0089
python 保存dataframe_在python2中将dataframe保存到CSV

我正在尝试将数据帧保存到Csv。当我打印数据帧时，它会产生我想要的输出，但是当我将数据帧保存到csv文件时，我只得到保存到csv文件的最后一行数据帧。。到目前为止我所做的。。。。。…

人工智能 2023年7月8日
0067
深度学习（2）基础2 — 分类：得分函数&&损失函数(损失、正则化惩罚项、梯度下降、学习率)&&概率

目录一、得分函数 1、10分类 2、5分类二、损失函数 0、引言 1、损失函数（数据损失） 2、损失函数应用 3、损失函数（数据损失与正则化惩罚项） 1、数据损失 2、正则化惩…

人工智能 2023年7月2日
00115
Opencv项目实战：05 物体检测

1，效果展示为此，我专门还去查了查，怎么将视频转化为gif图，不知不觉中，我又多学会了一项技能。 OK!cool，效果很不错，今天需要搭配一些文件，都是可以从官网里找到的，那么我…

人工智能 2023年7月18日
0039
零售药店管理系统 Python+MySQL数据库

零售药店管理系统【Python+数据库】 1 背景介绍结合本学期所学的Python和数据库完成一个零售药店管理系统 2 问题定义零售药店管理系统通过录入零售药品信息、员工信息…

人工智能 2023年7月4日
0074
【Python数据分析】数据挖掘建模——分类与预测——决策树

决策树是一种树状结构，它的每一个叶节点对应着一个分类，非叶节点对应着在某个属性上的划分，根据样本在该属性上的不同取值将其划分成若干个子集。构造决策树的核心问题是在每一步如何选择适当…

人工智能 2023年7月17日
0053
RepVGG论文详解以及使用Pytorch进行模型复现

RepVGG: Making VGG-style ConvNets Great Again 是 2021 CVPR的一篇论文，正如他的名字一样，使用 structural re-p…

人工智能 2023年7月13日
0087
win10上安装opencv详细教程（超详细！！！小白专用！！！）

关于opencv： OpenCV是一个基于BSD许可（开源）发行的跨平台计算机视觉和机器学习软件库，可以运行在Linux、Windows、Android和Mac OS操作系统上。 …

人工智能 2023年6月20日
00115

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31