GPT系列学习笔记：GPT、GPT2、GPT3

2023年9月27日下午2:38 • Python • 阅读 95

总结

GPT、GPT2、GPT3的共同点是其结构都基于Transformer的Decoder层。
区别在于：
模型一个比一个大，数据量一个比一个多。
GPT为常规语言模型
GPT2卖点指向zero-shot
GPT3卖点指向Few-shot

GPT: Improving Language Understanding by Generative Pre-Training

论文：链接（使用通用的预训练模型来提升语言理解能力）

目前NLU（Natural Language Understanding）方向的局限性：有标签的数据相对较少，限制了模型性能的提升。

基本思想：先在 没有标签的数据集上训练预训练语言模型，再在子任务上微调（自监督学习）。与之前的任务（word2vec也是在没有标签的数据集上预训练语言模型）不同， 微调时只需要改变模型输入的形式，而不需要对模型结构进行改变。模型结构选用的是 12层的 Transformer的 decoder。
无监督的预训练过程 给定一个序列U = { u i , … , u n } U={u_i,…,u_n}U ={u i ,…,u n }，使用一个标准的语言模型目标来最大化下面的似然函数： L 1 ( U ) = ∑ i l o g P ( u i ∣ u i − k , … , u i − 1 ; θ ) L_1(U)=\sum_ilogP(u_i|u_{i-k}, …, u_{i-1};\theta)L 1 (U )=∑i l o g P (u i ∣u i −k ,…,u i −1 ;θ) 其中，k k k为上下文窗口大小，θ \theta θ代表模型参数。即给定一个模型（GPT中指的是Transformer decoder），给定前k k k个词，预测当前词。

💡 预训练阶段是没有Start，Delim，Extract这些这些特殊符号的，模型通过微调阶段学习这些特殊token。
有监督的微调阶段 有标签的数据集C C C上每个样本包含一个句子X = { x 1 , … , x m } X={x^1, …, x^m}X ={x 1 ,…,x m }和对应的标签y y y。将X X X输入预训练模型，获取decoder最后一层的x m x^m x m对应的编码h l m h_l^m h l m ，将它传入一个额外的线性输出层来预测y y y：
P ( y ∣ x 1 , … , x m ) = s o f t m a x ( h l m W y ) P(y|x^1,…,x^m)=softmax(h_l^mW_y)P (y ∣x 1 ,…,x m )=so f t ma x (h l m W y ) 最大化下列的目标函数： L 2 ( C ) = ∑ ( x , y ) l o g P ( y ∣ x 1 , … , x m ) L_2(C)=\sum_{(x,y)}logP(y|x^1, …, x^m)L 2 (C )=∑(x ,y )l o g P (y ∣x 1 ,…,x m ) 在 微调阶段引入预训练任务，效果更佳： L 3 ( C ) = L 2 ( C ) + λ L 1 ( C ) L_3(C)=L_2(C)+\lambda L_1(C)L 3 (C )=L 2 (C )+λL 1 (C ) 其中，λ \lambda λ为可调节的超参数。

💡 GPT和BERT的区别：①GPT使用的Transformer的Decoder层（目标函数为标准的语言模型，每次只能看到当前词之前的词，需要用到Decoder中的Masked attention），BERT使用的Transformer的Encoder层（目标函数为带[Mask]的语言模型，通过上下文的词预测当前词，对应Encoder）；
💡 为什么GPT的性能比BERT差：①GPT预训练时的任务更难（BERT的base就是为了和GPT对比，参数设定几乎一样）；②BERT预训练用的数据集大小几乎是GPT的四倍；

; GPT-2: Language Models are Unsupervised Multitask Learners

论文：链接（语言模型是无监督的多任务学习器）

相较于GPT的改进：更大的数据，更大的模型，将卖点指向 zero-shot。
能做的task：阅读理解、翻译、总结、问答。

无监督的预训练阶段同GPT
zero-shot的下游任务下游任务转向做zero-shot而放弃微调，相较于GPT，出现一个新的问题：样本输入的构建不能保持GPT的形态，因为模型没有机会学习Start，Delim，Extract这些特殊token。因此，GPT-2使用一种新的输入形态：增加文本提示，后来被称为 prompt（不是GPT-2第一个提出，他使用的是18年被人提出的方案）。

For example, a translation training example can be written as the sequence (translate to french, English text, french text). Likewise, a reading comprehension training example can be written as *(answer the question, document, question, answer).

; GPT-3: Language Models are Few-Shot Learners

论文：链接

GPT-3的可学习参数达到1750亿，是之前的非稀疏语言模型的10倍以上，并在 few-shot的设置上测试它的性能。对于所有子任务，GPT-3 不做任何的梯度更新或者是微调。GPT-3的模型 和GPT-2一样。

* 数据集的生成 对抗学习（将GPT2数据集中的样本作为正例，CommonCrawl数据集中的样本作为负例，训练一个线性分类模型，然后对于CommonCrawl中的其他样本，去预测它属于正例还是负例，如果属于正例，则采纳他作为GPT3的数据集）+去重（lsh）

lsh算法：主要用于大数据规模时， 计算两两之间的相似度。 基本思想：基于一个假设，如果两个文本在原有数据空间是相似的，那么他们分别经过哈希函数转换以后的他们也具有很高的相似度。
* 局限性
1. 文本生成上的效果较弱。
2. 结构和算法的局限性。只能看当前词之前的信息（decoder）；每个词都均匀地预测下一个词，没有哪一个词更重要。
3. 只学习文本。未涉及其他模态
4. 样本的有效性不够
5. 无法解释

Original: https://blog.csdn.net/xiyou__/article/details/126388844
Author: xiyou__
Title: GPT系列学习笔记：GPT、GPT2、GPT3

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/785904/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 迭代器 – Iterable对象

仅供学习参考，转载请注明出处迭代器迭代是访问收集要素的一种方式。迭代器是一个记住遍历位置的对象。从集合的第一个元素开始访问迭代器对象，直到访问完所有元素。迭代器只能向前移动，不…

Python 2023年5月25日
00118
一、pytest安装和使用

pip install pytest pytest –version 1、用例文件：所有文件名为 test_ 开头或者 _test 开头的文件会被识别为用例文件。 2、用例类：…

Python 2023年9月9日
0052
numpy删除某一行(列)的各个方法的效率分析

最终结论如下（如下结论同时适用于 Linux 环境和 Windows 环境）： def func1(arr): arr2 = np.delete(arr, DELETE, axis…

Python 2023年8月23日
0079
用深度强化学习玩FlappyBird

摘要：学习玩游戏一直是当今 AI_研究的热门话题之一。使用博弈论/搜索算法来解决这些问题需要特别地进行周密的特性定义，使得其扩展性不强。使用深度学习算法训练的卷积神经网络模型（ _…

Python 2023年10月29日
0048
Pandas数据分析17——pandas数据清洗(缺失值、重复值处理)

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas对大数据有很多便捷的清洗用法，尤其针对缺失值和重复值。缺失值就不用说了，会影响计算，重复值有时候…

Python 2023年8月17日
0058
python blit_python—-pygame图形接口(太全了，收了)

pygame图形接口使用pygame.image模块，可以对图像进行读取和保存。使用pygame.image.load读取图像文件。 img = pygame.image.lo…

Python 2023年9月20日
0046
【机器学习】数据准备–python爬虫

前言我们在学习机器学习相关内容时，一般是不需要我们自己去爬取数据的，因为很多的算法学习很友好的帮助我们打包好了相关数据，但是这并不代表我们不需要进行学习和了解相关知识。在这里我们…

Python 2023年11月2日
0041
python数据可视化-matplotlib入门(5)-饼图和堆叠图

饼图常用于统计学模块，画饼图用到的方法为：pie( ) 一、pie()函数用来绘制饼图 pie(x, explode=None, labels=None, colors=None,…

Python 2023年5月24日
0098
python–flask框架(点点点工程师自我代码修养)(持续更新)

flask框架(点点点工程师自我代码修养) 1. 实例项目–鱼书 1. 思维导图 ; 2. 开发工具 – 根据喜欢 pycharm mysql navaicat 3. 编写一个最小…

Python 2023年8月13日
0079
RFN-Nest_ An end-to-end residual fusion network for infrared and visible images 论文解读

RFN-Nest 2021 研究图像融合分为三步：特征提取，融合策略，图像重建。当前端到端的图像融合方法：基于GAN的、还有本文提出的研究背景：当前设计的融合策略在为特定任务…

Python 2023年10月13日
0052
qt中Qtcpserver服务端_qt websocket

0.前言本文主要讲解 Qt TCP 相关接口的基本应用，一些实践相关的后面会单独写。 TCP 协议是一种面向连接的、可靠的、基于字节流的传输层通信协议。TCP 通过检验和、序列号…

Python 2023年9月17日
0054
40_Pandas中crosstab进行交叉制表（计算每个类别的出现次数和频率）

可以使用pandas.crosstab（）函数完成交叉表分析。可以为每个类别的分类数据（分类数据，定性数据）计算样本数（出现次数/频率）。如果要计算每个类别的平均值而不是出现次…

Python 2023年8月18日
0059
django序列化器嵌套

django序列化器嵌套使用场景嵌套方法替代方法使用场景就拿路飞学城的案例来说：学城里面有很多课程，课程信息存在一个表当中，课程表其中一个外键是教师，教师存在另外一个表当…

Python 2023年8月6日
0046
【深度学习论文 02-1】YOLOv1论文精读

原论文链接：https://gitee.com/shaoxuxu/DeepLearning_PaperNotes/blob/master/YOLOv1.pdf 笔记版论文链接：ht…

Python 2023年10月26日
0036
matplotlib各种案例总结（python经典编程案例）

一. 绘制基本图表颜色color和简写：红色 r: red 绿色 g: green 蓝色 b: blue 青色 c: cyan 洋红色 m: magenta 黄色 y: yel…

Python 2023年9月1日
0068
python金融分析小知识(36)——如何通过多种渠道去获取股票等金融数据

Hello 大家好，我是一名新来的金融领域打工人，日常分享一些python知识，都是自己在学习生活中遇到的一些问题，分享给大家，希望对大家有一定的帮助！大家好久不见！今天主要想给…

Python 2023年8月19日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

GPT系列学习笔记：GPT、GPT2、GPT3

目录

总结

GPT: Improving Language Understanding by Generative Pre-Training

; GPT-2: Language Models are Unsupervised Multitask Learners

; GPT-3: Language Models are Few-Shot Learners

大家都在看