The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

2023年5月27日下午9:19 • 人工智能 • 阅读 57

1.本文贡献

（1）提出prompt tuning，并在大型语言模型领域展示其与model tuning(fine tuning)的竞争力；

（2）减少了许多设计选择，显示质量和鲁棒性随着规模的增加而提高。

（3）在域转移问题上，显示prompt tuning优于model tuning。

（4）提出”prompt ensembling”，并展示其有效性。

2.Prompt tuning

在GPT-3中，提示标记P={p1，p2，…，pn}的表示是模型embedding table的一部分，由冻结θ参数化（模型嵌入表原来不适合于GPT3，后经过预训练后，词语的嵌入表示适合与GPT3，也就相当于被模型的参数参数化了，而提示又是离散的，且是嵌入表中的词，所以说是被模型的参数参数化了）。与GPT-3相比，Prompt tuning有其自己的参数，而不是像GPT-3那样参数被模型的参数Θ参数化。

The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

本文使用的是T5模型。输入n个tokens形成一个ne的xe矩阵，我们的soft prompts被表示为一个pe的Pe矩阵，p为提示的长度。提示和输入连接起来变成(p+n)*e的矩阵[Pe;xe]。

2.1 三种初始化提示表示的方法

（1）使用随机初始化

（2）使用模型词表中的嵌入进行初始化

（3）对于分类任务，枚举输出类别的嵌入进行初始化

由于想要模型产生输出里的token，所以使用valid target token的嵌入来初始化，使得模型将其输出限制到合法的输出类别中。(后边经过实验验证发现，用类别相关的token进行初始化，最终学到的提示向量，使用余弦距离找其最近的向量，可以发现初始化的token在所学的提示向量附近。所以说使用target token进行初始化，最终不会产生奇怪的不合法的输出)。

2.2 T5模型相关实验

T5模型的预训练任务是span corruption，最终的输出会带有sentinel token（哨兵标记），输入是”Thank you

进行了T5模型的三个实验：

（1）”Span Courruption”: 我们使用预先训练过的T5现成模型作为我们的冻结模型，并测试其为下游任务输出预期文本的能力。

（2）”Span Corruption+ Sentinel”:我们使用相同的模型，但在所有下游目标之前都有一个哨兵，以便更接近训练前看到的目标。

（3）”LM Adaptation”:继续使用T5的自监督训练，并且进行少量的额外步骤，在额外步骤中，使用LM目标，来尽力的在输出的目标中消除哨兵标记（本人理解：使用LM的目标函数作为损失函数来尽力消除哨兵标记这种非自然倾向）。

通过LM Adaptation，我们希望”快速”将T5转换为更类似于GPT-3的模型，该模型始终输出真实文本，并且作为”少数镜头学习者”能够很好地响应提示。与从头开始的前期培训相比，这一后期转变的成功程度尚不明显，据我们所知，之前也没有对其进行过调查。因此，我们对不同长度的自适应进行了实验，最多可达100K步。

3.结果部分

冻结模型建立在预先培训的各种尺寸（Small、Base、Large、XL、XXL）的T5之上。

“默认”配置是用绿色”×”绘制的，它使用了经过额外100K步训练的LM-adapted版本的T5，使用类标签进行初始化，并使用100个标记的提示长度。

在SuperGLUE基准测试（Wang等人，2019a）上衡量绩效，该测试包括八项具有挑战性的英语语言理解任务。

每一个提示都是在单个的SuperGLUEtask任务上进行训练，没有多任务的设置，也没有跨任务的训练数据混合。

考虑两个baselines：

（1）”Model Tuning”：使用T5模型对每个任务进行微调

（2）”Model Tuning(Multi-task)”：在T5模型中微调多个任务，使用任务名字作为前缀。

上图可以看到，随着规模的增加，prompt tuning与model tuning，具有了可比的效果。同时可以看到prompt tuning击败了GPT3的prompt design。

实验一、探索前缀长度

对于大多数model size来说，将提示长度增加到超过一个长度对于实现良好性能至关重要。值得注意的是，XXL模型仍然通过一个标记提示给出了强有力的结果，这表明模型越大，实现目标行为所需的条件信号就越少（ 也就是说需要的提示信息越少）。在所有模型中，增加超过20个token只会产生边际收益(超过 20 个 token 会导致性能产生下降，超过 20 个 token 之后，同样的模型大小，超过 20 个前缀长度的模型性能会在某个点低于使用 20 个 token 前缀长度的模型)。

实验二、探索前缀初始化

（1）对于随机初始化，从[−0. 5,0. 5]范围内均匀采样。

（2）当从样本词汇中初始化时，我们将T5的句子块词汇（Kudo and Richardson，2018）中最”常见”的根据训练前语料库中的可能性排序的5000个标记限制在范围内，从这5000词中选择进行初始化

（3）对于类别标签初始化，获取在下游任务中每个类的字符串表示嵌入（ verbalizer 将标签映射到的标签词空间中的那些标签词的嵌入表示），并使用它们初始化提示符中的一个标记。

实验三、预训练目标

从图标中可以看出之前的假设是正确的，即T5模型默认的”Span Corruption”的目标不适合训练冻结的、以后根据提示进行调整的语言模型。预先训练读写哨兵标记的模型很难直接应用于没有哨兵的文本读写任务。即使在下游任务的目标中加入了哨兵标记，Span Corruption+Sentinel，却发现性能只有一点点的改进。

在非最优的”Span Corruption”设置中，我们观察到不同模型大小的不稳定性，小模型的表现优于较大的基础模型、大模型和XL模型。通过检查，发现对于许多任务，这些中型模型从未学会输出合法的类别标签，因此得分为0%。最常见的两种错误模式是从输入中复制子span和预测空字符串。这种较差的性能并不是由于prompt tuning中的随机变化造成的，因为作者观察到对于每一个大小的模型，3次运行之间的prompt差异较小。

实验4.与类似方法的比较

[En]

Experiment 4. Comparison with similar methods

（1）prefix tuning：学习一系列在每一个transformer层以及输入层预先设置好的前缀。与此相反，prompt tuning使用加在embedding input前的单个提示表示。后者除了需要更少的参数外，还允许transformer根据输入示例的上下文更新中间层任务表示。而prefix tuning却不行，因为他的每一层都有prefix参数所以在每一层都会更新任务的表示。同时prefix tuning需要前缀的重新参数化来稳定学习，这会在训练期间添加大量参数。而prompt tuning则不需要重新参数化。

（2）WARP：把提示参数添加到输入层。该方法运用MLM运作，依赖[mask]标签和一个可以学习的输出层，输出层将[mask]标签映射给class logits。Prompt tuning不需要对输入做任何的改变，其性能与fine tuning的性能接近。

（3）P-tuning:可学习的连续提示使用人类设计的模式（模板）在整个嵌入输入中交错。Prompt-tuning不需要如此复杂，只需要在输入前添加提示即可。

…..

实验五、domain shift

输入的分布在训练和测试集不同，就可以称之为domain shift。

在大多数域外数据集上，Prompt tuning优于Model tuning，具有显著的优势。在领域转移较大的情况下（Biomedical in BioASQor to Textbooks in TextbookQA），Prompt的收益更大。

作为对域转移鲁棒性的第二个测试，探索了GLUE中两个释义检测任务之间的转换。

QQP到MRPC，使用Prompt tuning精度提高了3个点，F1提高了3个点；MRPC到QQP，精度提高了1个点，F1下降了1个点。相比来看，Model容易对训练数据过拟合，导致其性能低于prompt tuning

实验六、Prompt Ensembling

对同一数据进行不同初始化训练的神经模型集合被观察到可提高任务性能（Hansen和Salamon，1990），并可用于估计模型不确定性。

随着模型的增大，存储N个神经网络的副本变得不太显示。但是有了prompt tuning，可以在相同的任务上训练N个prompt存储起来（相当于对一个任务创建N个独立的模型）。

为每一个SuperGLUE任务使用T5-XXL训练了5个提示，使用简单多数投票来计算集合的预测。实验效果如下图所示：

实验七、Interpretability

为了测试我们学习的soft prompt的可解释性，从冻结模型的词汇表中计算每个提示标记的最近邻，使用词汇嵌入向量和提示标记表示之间的余弦距离作为相似性度量。

观察结果，对于给定的学习提示标记，前5个最近邻形成紧密的语义簇。例如，我们看到词汇上相似的集群，比{Technology/Technology/Technologies/Technology/Technologies}，以及更加多样化但仍然密切相关的集群，如{entirely/completely/totally/altogether/100%}。这些集群的性质表明，提示实际上是在学习”类词”表征。我们发现，从嵌入空间中提取的随机向量不显示这种语义聚类（ 意思是随机向量的前五个最近邻不会形成语义簇）。

当使用”class label”策略初始化提示时，经常发现类标签会通过训练保持不变。具体地说，如果提示token被初始化为给定的标签，则该标签通常在调优后位于学习令牌的最近邻居中。当使用”Random Uniform”或”Sampled Vocab”方法初始化时，也可以在Prompt的最近邻中找到类标签；然而，它们倾向于作为多个Prompt token的邻居出现。 这表明模型正在学习将预期的输出类存储在提示中作为参考，而初始化提示到输出类会使这更容易、更集中。

当测试较长的Prompt（例如长度为100）时，我们通常会发现几个具有相同近邻的提示标记。 这表明提示中存在容量过剩，或者提示表示中缺少顺序结构，使得模型难以将信息定位到特定位置。

Original: https://blog.csdn.net/qq_43775680/article/details/123954105
Author: 一直在路上的程序猿
Title: The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527747/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Detecting Rumors from Microblogs with Recurrent Neural Networks（IJCAI-16）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0061
cvc降噪和主动降噪_最牛数字主动降噪耳机设计要点

目前应用在耳机中的主动降噪(ANC)技术有两种模式，分别称为前馈降噪和反馈降噪，两者结合则组成混合降噪。不同的主动降噪技术在降噪深度和带宽上有各自的局限性，这主要是由耳机声学结构、…

人工智能 2023年5月27日
00181
LD3320语音识别模块开发

达者为先师者之意 LD3320语音识别模块开发 1 LD3320语音识别模块基本参数 * 1.1 基本参数 1.2 识别原理 1.3 解决方案： 2 LD3320语音识别模块二次…

人工智能 2023年5月25日
0076
【嵌入式开发系统04】Unbuntu下图像处理开源软件库 Opencv3.4.11的安装、编译及应用初步

本文目的是主要介绍了怎样安装opencv，如何用opencv编译程序打开一个图片或者摄像头等，并为之后的人脸识别系统打了基础。文章目录（一）什么是Opencv？（二）Open…

人工智能 2023年6月22日
0084
人工智能-第三阶段-k近邻算法1-算法理论、kd树、鸢尾花数据

人工智能-第三阶段-k近邻算法1-算法理论、kd树、鸢尾花数据人工智能–k近邻算法2-归一化、交叉验证、网格搜索、数据分割方法总结、两案例实现机器学习（数据科学库）：matplo…

人工智能 2023年6月27日
00132
改进YOLOv5系列：2.PicoDet结构的修改

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月5日
0046
整理了 47 个 Python 人工智能库

Python 是人工智能（机器学习）的首选编程语言，它拥有众多模块，能完成人工智能开发的所有环节，没有任何一种语言使用起来如此顺手。今天就由我带着大家揭开人工智能的神秘面纱。主页…

人工智能 2023年7月14日
0065
TensorFlow和CUDA、cudnn、Pytorch以及英伟达显卡对应版本对照表

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月5日
0074
C++QT开发——GraphicsView(图形视图)

图形视图框架 Qt提供了图形视图框架(Graphics View Framework)、动画框架(The AnimationFramework)和状态机框架(The State M…

人工智能 2023年6月30日
00103
基于GDAL的JAVA生成GDB文件实战

前言在之前博客中，陆续的介绍了关于gdb文件的读取，gis利器之Gdal（三）gdb数据读取，玩转GDAL一文带你深入Windows下FileGDB驱动支持，这些文章主要都是介绍…

人工智能 2023年7月29日
0089
轨迹预测论文解读系列——几种经典的网络

背景首先问大家一个问题，什么是自动驾驶车辆的最大挑战？答案是理解行人的运动并且预知行人之后的轨迹。人类的运动可以被认为是多模态性的，即人类有可能在任何给定的时刻向多个方向移动。而…

人工智能 2023年7月27日
0053
delf配置：基础环境（一）

windows下delf配置：delf环境（二）windows下delf配置：delf测试（三）一、版本 github配置源码的时候一定要看文档！！！！一定要注意版本要求，否则…

人工智能 2023年5月26日
00109
猿创征文｜时间序列分析算法之平稳时间序列预测算法和自回归模型(AR)详解+Python代码实现

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月3日
0085
【Python】Excel操作–panda、matplotlib、Jupyter Notebook

目录一、创建Excel文件二、操作Excel文件 1.往文件里写入数据： 2.读写Excel文件： 3.查看行数和列数： 4.查看表头名： 5.查看”头&#8221…

人工智能 2023年7月7日
0052
利用IMU进行激光点云运动畸变校正

对IMU进行角速度积分：角速度积分参照了VINS-Mono的预积分流程，激光雷达的频率远低于IMU频率。在一个点云数据的一个周期内（100ms），IMU大约会产生200 ÷ 10 …

人工智能 2023年5月28日
0079
GAN网络

目录 GAN * 生成网络G（Generative）对抗网络D（Discriminative）两分布之间差异性评价 – KL散度 JS散度损失函数一次代码实验 …

人工智能 2023年6月12日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

The Power of Scale for Parameter-Efficient Prompt Tuning及prefix tuning与prompt tuning的区别

大家都在看