论文阅读笔记：Selecting Informative Contexts Improves Language Model Fine-tuning

2023年5月30日下午9:35 • 人工智能 • 阅读 82

Selecting Informative Contexts Improves Language Model Fine-tuning**

下载地址：https://arxiv.org/pdf/2005.00175.pdf
来源：ACL 2021

本文主要贡献：

（1）将测试许多随机种子的回顾性方法（Dodge 等人，2020）替换为提高语言模型微调有效性的前瞻性方法。

（2）本文表明这种技术效果很好，适用于各种微调设置。并且研究了为什么它运作良好，并提供了支持我们关于解释数据排序效应的信息示例的假设的证据。

（3）除了性能提升之外，这种方法还可以减轻深度神经网络语言建模对能量的影响。

Abstract

我们提出了一种通用的微调方法，我们称之为信息增益过滤，用于提高语言模型微调的整体训练效率和最终性能。我们将示例的信息增益定义为在对该示例进行训练后对测试指标的改进。然后训练一个辅助学习器来近似这个数据。在微调期间，该学习器选择信息丰富的示例并跳过无信息的示例。我们的方法在数据集、微调任务和语言模型架构方面具有一致的改进。

Introduction

分析微调过程的工作表明，它在运行之间具有很高的可变性，并且对数据排序特别敏感。我们假设大部分这种可变性可以通过随机选择具有高度”信息量”的训练示例来解释，这些训练示例最有效地捕获了目标语料库的低级分布统计数据。如果是这种情况，那么应该可以快速筛选信息丰富的训练示例，以降低成本确保高性能。

我们的方法使用辅助学习器来估计每个训练示例的有用性，然后仅选择信息丰富的示例进行训练。

Background

现在对语言模型的标准微调采用随机抽样的方法。虽然随机抽样方法很有用，但上下文抽样的随机性为进一步改进提供了一条途径。这些方法不对 F 中示例的信息量做出假设，而是依靠随机性来找到有用的训练样本。

论文阅读笔记：Selecting Informative Contexts Improves Language Model Fine-tuning

Information Gain Filtration

Informativeness of an Example

在给定预训练语言模型 L(X;θ) 和目标数据集 F 的情况下，我们表征示例 (X, y) ∈ F 的信息量。

如果我们对它将给予模型的改进的估计超过所选阈值，我们将示例 (X, y) 定义为”informative”。也就是说，如果我们期望给定的示例将模型的困惑减少超过预设的数值，那么我们将其表示为”informative”。

我们将示例 (X, y) 在目标集 O 上的信息增益 (IG) 定义为在对示例 (X, y) 进行训练之前和之后在目标集 O 上测量的困惑度差异，

其中 θ 是语言模型的初始参数化，θ'(X, y) 是反向传播与训练样例 (X, y) 相关的损失后的参数化。目标集 O = {(X1, y1), . . . ,(Xn, yn)} 是训练数据的一个保留子集，它告知我们决定哪些上下文是有用的。为简洁起见，我们将 IGO(X, y) 简单地表示为 IG(X)。

Filtering Examples

由于信息增益评估示例的信息量，我们接下来提出一种利用它进行微调的方法。让我们假设该方法遇到一个新示例（X，y）。然后，该方法可以在两个操作之间进行选择：

BACKPROP：通过反向传播损失 Λ({(X, y)}; θ) 更新语言模型参数 θ，采取梯度下降步骤，并将参数从 θ 更新到 θ’。
SKIP：保持语言模型参数不变。

考虑到这个想法，我们定义了函数q(X, action) 并为上面的每个动作分配一个值：

其中 TSKIP 是一个自由的”阈值”参数，用于决定哪些 IG(X) 值足够高以保证反向传播。

按照这个定义，我们可以在微调期间应用贪心策略来过滤示例：

我们称这种技术为信息增益过滤或简称为 IGF。

Approximating Information Gain

计算等式中的 IG(X) 需要反向传播步骤，这使得直接应用 q(X, action) 至少与标准微调一样昂贵。

为了解决这个问题，我们的目标是使用一个单独的模型来近似信息增益 IG(X)，我们将其称为次要学习器并用 Q(X) 表示。

为了训练这个二级学习器，我们首先通过计算从微调集 F 中抽取的随机样本子集的 IG(X) 来构建训练数据集 D。用于计算 IG(X) 的目标集 O 被选为 F 的不同子集。D 中的每个条目由一对输入文本 X 及其关联的 IG(X) 值组成，即 D = {(X1, IG(X1)), 。 . . ,(Xn, IG(Xn))}。然后我们训练辅助学习器 Q来逼近给定 X 的归一化 IG(X)。最后，生成的辅助学习器 Q^ 用于在微调期间过滤示例。

IGF和辅助学习器算法：

Scheduled Thresholding

使用初始预训练模型参数 θ0 构建辅助学习器训练集 D。这意味着学习器区分”高质量”和”低质量”示例的有效性应该会随着参数与其初始值的偏离而降低。为了改善这个问题，等式可以通过在微调过程中改变 TSKIP 来修改。由于 Q 在第一步最准确，我们安排 TSKIP 从高度选择性（高值）切换到高度宽容（低值）。这允许模型在微调过程的早期利用对 IG(X) 的准确率预测，而一旦这些预测在以后变得不那么准确，就不会过度拟合。

Result

Language Model Fine-tunning

下图绘制了这 4 种不同方法在 60 个批次中的平均微调曲线。

我们看到，与混合语料库和书籍语料库的标准微调相比，IGF 显着提高了最终测试的困惑度。这意味着 IGF 通过对信息上下文进行选择性抽样而对数据顺序的总体改进远远超过了通过对上下文随机抽样可能实现的合理改进。

下图显示了在与上图不同的数据集、不同的架构 (GPT2-Medium)、具有不同方向性的嵌入空间 (BERT) 上微调 GPT-2 Small 的最终收敛值，以及不同的整体微调任务 (SST-2)。在任何情况下，IGF 都超过了标准微调的性能。这表明 IGF 是一种弹性方法，广泛适用于各种微调模式和领域。

Understanding IGF

IGF 的一个主要假设是可以近似 IG(X)。如果 IG(X) 不是近似的，那么次要学习器就不能有效地过滤掉无信息的上下文，因此将毫无用处。为了支持这一假设，我们将首先证明给定示例值得学习，即使它仅具有信息上下文的正确低级特征，例如正确的一元频率分布。

我们进行了一个实验，在其中我们对（1）来自语料库的真实示例序列，（2）通过从语料库的频率分布中独立采样每个标记构建的人工序列，以及（3）通过从所有可能的标记集中均匀采样标记构建的序列来微调语言模型。然后，我们计算了语料库单独部分的损失变化。下图显示了该实验的结果。

使用 unigram 频率分布构建的示例的平均损失减少明显优于随机，大约是使用语料库中的真实示例的 70%。因此，在真实上下文中训练的很大一部分好处可以通过仅知道这些上下文所源自的一元组频率分布来估计，这很容易在不知道语言模型本身的特定参数化的情况下进行估计。因此，IGF 可以廉价地估计给定上下文是否可以很好地泛化到目标语料库是有意义的。

Understanding the Secondary Learner

这就提出了一个问题，即哪些上下文被次要学习者认为是”信息丰富的”。为了回答这个问题，我们将 IGF 应用于包含 Reddit 和 Books 的混合语料库。我们创建了一个包含 10,000 个 (X, IG(X)) 对的数据集，该数据集使用 160 个上下文的目标集和 32 个标记，每个标记仅来自 Books 语料库。我们使用这个数据集来训练二级学习者。接下来，从混合语料库中随机抽取的上下文向次要学习者提供。因为目标集仅包含来自一个语料库的示例，我们希望辅助学习器将更高的 IG(X) 值分配给来自同一语料库的其他示例。下图显示，两个语料库之间的 Q 值分布确实存在显着差异，表明 Books 语料库和 Reddit 语料库可以被辅助学习器分开。

辅助学习器期望 Reddit 语料库中的几乎所有示例都能减少至少比均值低一个标准差的困惑度。
这表明次要学习者可以非常自信地识别出 Books 语料库示例比 Reddit 语料库示例在微调 Books 目标方面提供更多信息。

Efficiency of IGF

对于之前的结果，我们使用第 3 节中描述的简单卷积神经网络作为我们的辅助学习器。下图显示了几种学习方法的预测值与实际归一化 IG(X) 值。

虽然 45,000 个参数的卷积神经网络在逼近 IG(X) 方面最有效，但其他学习器的表现几乎都很好。

下图比较了这些辅助学习器架构在不同数量的训练示例中的性能。在这里，卷积网络是样本效率最高的方法，因为它可以用少至 2,000 个训练样本有效地学习 IG(X)。

Conclusion

在语言模型微调的背景下，我们已经证明辅助学习器可以有效地区分信息和非信息训练示例。这个辅助学习器可用于在我们称为信息增益过滤的技术中选择有用的训练示例，从而导致比标准微调更好的模型性能。

这项工作也提出了几个问题。由于我们的重点是开发轻量级技术，因此我们测试的最复杂的辅助学习器是一个小型卷积网络。通过使用更复杂的模型，训练期间的数据效率可能会进一步提高。
一个人可以在多大程度上合理地采用函数逼近器网络来估计信息增益的问题仍未得到探索。

Original: https://blog.csdn.net/Hero19980512/article/details/123879295
Author: HeroGGC
Title: 论文阅读笔记：Selecting Informative Contexts Improves Language Model Fine-tuning

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/545231/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Collaborative算法如何处理缺失数据或缺失评分的情况

问题背景介绍 Collaborative Filtering（协同过滤）是一种常用的推荐系统算法，它根据用户的历史行为和其他用户的行为来预测用户未来的偏好。然而，在实际应用中，由于…

人工智能 2024年1月4日
0037
方差递推公式_时间序列的几个基本概念:样本自协方差函数、自协方差函数、自相关函数、偏自相关系数…

1. 样本自协方差函数 2. 自协方差函数 3. 自相关函数 4. 偏自相关系数 1. 样本自协方差函数对于满足均值遍历性、二阶矩遍历性的平稳时间序列一次具体观测值，总体平均可转…

人工智能 2023年6月18日
00113
如何用python绘制表白爱心？含参数逻辑

一直觉得turtle是个非常可爱的库，突然想试试传说中的土味表白：用python画一颗小爱心。实现效果如下（可键入想打印的文字）：虽然作为一个老掉牙的土味招数，确实有很多很多现…

人工智能 2023年7月4日
0077
【OpenCV图像处理14】图像分割与修复

文章目录十四、图像分割与修复 * 1、图像分割 – 1.1 分水岭法 1.2 GrabCut法 1.3 MeanShift法 2、视频前后景分离(视频背景抠图) &#…

人工智能 2023年6月20日
0087
PyTorch QAT（量化感知训练）实践——基础篇

Mapping function The mapping function is a function that maps values from floating-point t…

人工智能 2023年7月22日
0080
python中pandas库的作用_python之pandas库详解

pandas 是一个 Python Data Analysis Library.在使用前 import pandas as pd 一.创建对象(产生数据) pandas 中有三种基…

人工智能 2023年7月6日
0080
【YOLO3D】:端到端3D点云输入的实时检测

YOLO3D:端到端3D点云输入的实时检测前言算法分析 * 模型输入网络结构回归损失 – 3D box 回归偏航角回归边界框损失函数数据集处理 &#821…

人工智能 2023年7月10日
0063
动态图和静态图

动态图和静态图介绍目前市面上比较流行的深度学习框架主要分类两大类：动态图框架和静态图框架，Pytorch、TF、Caffeine等框架最大的区别就是它们拥有不同的计算图表现形式。…

人工智能 2023年5月24日
00104
班级网页制作 HTML个人网页设计我的班级网站设计与实现大学生简单班级静态HTML网页设计作品 DIV布局班级网页模板代码 DW学生校园网站制作成品下载

🎉精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案例…

人工智能 2023年6月27日
0092
Elasticsearch-数据模型

什么是数据模型数据模型是抽象描述现实世界的一种工具和方法，是通过抽象实体及实体之间联系的形式，用图形化的形式去描述业务规则的过程，从而表示现实世界中事务以及相互关系的一种映射。核…

人工智能 2023年6月1日
0083
python 合并csv文件的问题：UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xba in position 0、csv中文乱码

python 合并csv文件遇到的问题问题一：UnicodeDecodeError: ‘utf-8’ codec can’t decode b…

人工智能 2023年7月8日
0074
【OpenCV】OpenCV基础教程（3）—— 对比度增强

3. 对比度增强 3.1 灰度直方图获取灰度直方图的函数如下： void cv::calcHist(const cv::Mat *images, int nimages, con…

人工智能 2023年6月18日
0070
感知机python实现鸢尾花分类

目录 1、数据集准备 1.1 导入包 1.2 加载数据 1.3 原始数据可视化 1.4划分数据集和标签 1、数据集准备本文使用sklearn的鸢尾花数据。 sklearn.dat…

人工智能 2023年6月30日
0090
Prompt Learning详解

现阶段NLP最火的两个idea 一个是对比学习（contrastive learning）另一个就是 prompt prompt 说简单也很简单看了几篇论文之后发现其实就是构建…

人工智能 2023年5月27日
0085
蓬莱小课：最全数据分析学习路线，建议入门者收藏，照着学就对了

在数据越来越受到重视的今天，数据分析师是大数据时代应运而生的职业。现在越来越多的传统公司也意识到数据资产的重要性，配置了数据分析师的岗位。从市场需求量与薪资来看，数据分析师可谓都…

人工智能 2023年7月18日
0069
ResNet50实现kaggle猫狗分类

ResNet50实现kaggle猫狗分类提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录 * – ResNet50实现kaggle猫狗分类*…

人工智能 2023年7月2日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读笔记：Selecting Informative Contexts Improves Language Model Fine-tuning

大家都在看