How Can We Know What Language Models Know? 中文注释

(2022/3/13 下午3:40:25)

(Jiang 等。, 2020, p. 423) 最近的工作提出了耐人寻味的结果,即通过让语言模型(LM)填充诸如 “奥巴马的职业 “等提示的空白处来研究语言模型(LM)所包含的知识。这些提示通常是人工创建的,而且很可能是次优的;另一个提示,如 “奥巴马曾是”,可能会导致更准确地预测正确的职业。正因为如此,在一个不恰当的提示下,我们可能无法检索到LM所知道的事实,因此,任何给定的提示只能提供LM所包含的知识的下限估计。在本文中, 我们试图通过自动发现更好的提示来更准确地估计LM中所包含的知识,以便在这个查询过程中使用具体来说,我们提出了基于挖掘(mine)和转述(paraphrase)的方法来自动生成高质量和多样化的提示语,以及结合不同提示语的答案的集合方法。在LAMA基准上进行的广泛实验表明,我们的方法可以将准确率从31.1%提高到39.6%,为LM的知识提供了更高的下限。我们已经发布了代码和由此产生的 LM提示和查询档案(LPAQA),网址是https://github.com/jzbjyb/LPAQA

“Specifically, we propose mining-based and paraphrasing-based methods to automatically generate high-quality and diverse prompts, as well as ensemble methods to combine answers from different prompts.” (Jiang 等。, 2020, p. 423) (pdf)

(Jiang 等。, 2020, p. 423) 近年来,语言模型(LM)的主要作用从生成或评估自然文本的流畅性(Mikolov和Zweig,2012;Merity等人,2018;Melis等人,2018;Gamon等人,2005)过渡到成为 文本理解的有力工具。 这种理解主要是通过使用语言建模作为特征提取器的预训练任务来实现的,通过语言建模目标学到的隐藏向量随后被用于下游语言理解系统(Dai和Le,2015;Melamud等人,2016;Peters等人,2018;Devlin等人,2019)。

有趣的是,LMs本身也可以作为文本理解的工具,通过用自然语言制定查询,直接生成文本答案(McCann等人,2018;Radford等人,2019),或者 评估多个选择并挑选最可能的一个(Zweig和Burges,2011;Rajani等人,2019)。例如,LM被用来回答事实性问题(Radford等人,2019),回答常识性查询(Trinh和Le,2018;Sap等人,2019),或者 提取关于实体之间关系的事实性知识(Petroni等人,2019;Baldini Soares等人,2019)。 无论最终的任务是什么,LM中包含的知识都是通过提示来挖掘,让LM生成前缀的的后续信息(例如,”巴拉克-奥巴马出生于”),或者预测cloze-style模板中的缺失单词(例如,”巴拉克-奥巴马是一个职业”)。

(注: cloze-style 是指在提示的前面或中间有空缺词。 续写是指在后面留空。)

然而,虽然这种范式已经被用来实现一些关于LMs所表达的知识的 有趣 的结果,但它们通常依赖于基于实验者的直觉而 手工创建的提示语。这些手动创建的提示(例如,”巴拉克-奥巴马出生在”)可能是 次优的,因为在训练期间,LM可能已经从大大不同的背景中学习了目标知识(例如,”巴拉克-奥巴马的出生地是夏威夷的檀香山”)。因此, 很有可能由于提示语不是对事实的有效查询,而无法检索到LM确实知道的事实。因此,现有的结果只是对LM所包含的 知识程度的一个下限,事实上,LM的知识可能比这些初步结果所显示的还要丰富。在本文中, 我们提出了一个问题:”我们如何才能提升这个下限,并对最先进的LM所包含的知识有一个更准确的估计?这在科学上是很有趣的,因为它是对LM所包含的知识的一种探测,从工程的角度来看,当使用LM作为知识提取系统的一部分时,它将导致更高的召回率。

特别是,我们专注于Petroni等人(2019)的设定, 他们研究提取有关实体之间关系的知识(定义见第2节)。 我们提出了两种自动方法来系统地提高用于查询关系存在的提示的广度和质量(第3节)。具体来说,如图1所示,这些方法是基于 挖掘的方法,其灵感来自于以前的关系提取方法(Ravichandran和Hovy,2002),以及 基于转述的方法该方法采用一个种子提示(无论是手动创建的还是自动挖掘的),并将其转述为其他几个语义相似的表达。此外,由于不同的提示在查询不同的主客体对时可能效果更好, 我们还研究了轻量级的集成方法,将不同提示的答案结合在一起(第4节)。

我们在LAMA基准(Petroniet al., 2019)上进行了实验,这是一个英语基准,旨在测试LM检索实体间关系的能力(第5节)。我们首先证明,改进后的提示明显提高了这项任务的准确性,我们的方法提取的最佳提示在BERT-base(Devlin等人,2019)上的准确性从31.1%提高到34.1%,在BERT-large上也获得了类似的收益。我们进一步证明,通 过集成使用多样化的提示,进一步提高了准确性,达到39.6%。我们进行了广泛的分析和消减,既收集了关于如何最好地查询存储在LM中的知识的见解,也收集了关于将知识纳入LM本身的潜在方向的见解。最后, 我们发布了由此产生的LM提示和查询档案(LPAQA),以促进未来对LM中包含的知识进行探测的实验。

(集成各种提示,达到更多召回)

“sub-optimal” (Jiang 等。, 2020, p. 423) (pdf) 次优的

(Jiang 等。, 2020, p. 424) 从LM中检索事实性知识与查询标准的陈述性知识库(KB)有很大不同。在标准的知识库中,用户将其信息需求表述为由知识库模式和查询语言定义的结构化查询。例如,SELECT ?y WHERE {wd:Q76 wdt:P19 ?y}是一个SPARQL查询,用于搜索巴拉克-奥巴马的出生地。相比之下,LM必须通过自然语言提示进行查询,例如 “巴拉克-奥巴马出生在”,在空白处分配的概率最高的词将被返回作为答案。与对知识库的确定性查询不同,这不提供正确性或成功的保证。

虽然提示的想法在从LM中提取多种知识的方法中很常见,但在本文中,我们特别遵循Petroni等人(2019)的表述,其中事实性知识是以三联体的形式出现的 〈x, r, y〉。这里x表示主体,y表示客体,而r是它们的对应关系。为了查询LM, r与一个由一系列标记组成的cloze-style提示tr相关联,其中两个标记是主体和客体的占位符(例如,”‘x plays at y position'”)。通过用主语的表面形式替换x,并让模型预测缺失的宾语(例如,’LeBron James plays at position’),可以评估LM中事实的存在: ( 我们也可以反其道而行之,填充客体,预测缺失的主体 (主客体对)。由于我们的重点是改进提示,我们选择与Petroni等人(2019)一致,以进行公平的比较,并将探索其他设置留给未来的工作。另外值得注意的是,Petroni等人(2019年)只使用由一个标记组成的对象,所以我们只需要预测一个单词的缺失槽。

y = arg max y′∈V PLM(y′|x, tr), 其中tr为提示信息

其中V是词汇表,PLM(y′|x, tr)是在其他标记( 即主体和提示)的条件下,LM在空白处预测y′的概率。因为我们希望我们的提示能够最有效地激发出LM本身所包含的任何知识,所以一个 “好的 “提示应该尽可能多地触发LM对基础事实对象的预测。

在以前的工作中(McCann等人,2018;Radford等人,2019;Petroni等人,2019),tr一直是基于实验者的直觉而手动定义的单一提示。正如介绍中所指出的,这种方法不能保证是最佳的,因此我们提出了从 一小组训练数据中学习有效提示的方法,这些训练数据由每个关系的黄金 _主客体对_组成。

(Jiang 等。, 2020, p. 425) 首先,我们处理提示生成问题:为每个关系r生成一组提示{tr,i}Ti=1的任务,其中至少有一些提示能有效地触发LM来预测真实客体。我们采用两种实用的方法,要么从 大型语料库中挖掘提示候选者(§3.1),要么通过转述使种子提示多样化(§3.2)。

(Jiang 等。, 2020, p. 425) 基于挖掘的提示生成: 我们的第一个方法受到基于模板的关系提取方法的启发(Agichtein和Gravano,2000;Ravichandran和Hovy,2002),这些方法基于这样的观察:在大型语料库中,主语x和宾语y附近的词经常描述关系r。基于这种直觉,我们首先利用远距离监督的假设,确定所有包含特定关系r的主语和宾语的维基百科句子,然后提出两种方法来提取提示。 中间词提示 根据观察, 在主语和宾语中间的词往往是关系的指示,我们直接使用这些词作为提示语。例如,”巴拉克-奥巴马出生在夏威夷 “通过用占位符替换主语和宾语被转换成 “X出生在Y “的提示。

基于依存关系的提示 Toutanova等人(2015)指出,在单词不出现在主宾中间的模板情况下(例如,”法国的首都是巴黎”), 基于句法分析的模板对关系提取更有效。我们在创建提示语的第二个策略中遵循了这一见解,该策略用依存分析器解析句子,以确定主语和宾语之间最短的依赖性路径,然后 使用依存路径中从最左边的单词到最右边的单词的短语作为提示语。例如,上例中的依赖路径是”‘France pobj ←– of prep ←– capital nsubj ←– is attr –→ Paris'”,其中最左边和最右边的词是 “capital “和 “Paris”,给出的提示是”capital of x is y”.。

值得注意的是,这些基于挖掘的方法不依赖于任何手动创建的提示,因此可以灵活地应用于任何我们可以获得一组主客体对的关系。这将导致多样化的提示,涵盖 关系在文本中可能表达的各种方式。然而,它也可能容易产生噪音,因为以这种方式获得的许多提示可能对关系的指示性不强(例如,”x,y”),即使它们很频繁。 (有可能生成 “x, y” 这种指示性不强的提示,也就是说质量不好,是噪音)

(Jiang 等。, 2020, p. 425) 转写式提示生成: 我们的第二种生成提示语的方法更有针对性–它旨在提高词汇的多样性,同时保持对原始提示语的相对忠实。具体来说,我们通过对原始提示进行转述,使其成为其他语义相似或相同的表达方式。例如,如果我们的原始提示是”x与y共享一个边界”,它可以被转述为”x与y有一个共同的边界”和”x与y相邻”。这在概念上类似于信息检索中使用的查询扩展技术,即重新表述一个给定的查询以提高检索性能(Carpineto和Romano,2012)。

(回泽方法)

虽然很多方法可以用于转述(Romano等人,2006;Bhagat和Ravichandran,2008),但我们遵循使用回译的简单方法(Sennrich等人,2016;Mallinson等人,2017),首先将初始提示翻译成另一种语言的B候选者,然后将每个候选者回译成原始语言的B候选者。然后,我们根据B2候选人的往返概率(即 Pforward( ̄t|ˆt )x Pbackward(t| ̄t ),其中ˆt是初始提示, ̄t是另一种语言的翻译提示,t是最终提示)进行排名,并保留前T个提示。

(Jiang 等。, 2020, p. 426) 提示选择与集成 在上一节中,我们描述了为一个特定的关系r生成一组候选提示{tr,i}Ti=1的方法。这些提示中的每一个在激发LM的知识方面都可能或多或少地有效,因此有必要决定在测试时如何使用这些生成的提示。在本节中,我们将介绍三种方法来做到这一点。 (对生成的提示进行怎样的处理才有效) Top-1 提示选择

对于每个提示,我们可以用以下方法衡量其预测真实客体的准确性(在训练数据集中):

A(tr,i) = ∑

其中R是一组 具有r关系的主客体对,δ(-)是Kronecker的delta函数, 如果内部条件为真,返回1,否则返回0 ( 条件是 y == arg max y’ PLM(y’|x,tr,i) 。在最简单的查询LM的方法中,我们选择准确率最高的提示,并只使用这个提示进行查询。 ———————————————-

(克罗内克函数: 两值 相等输出 1, 不等输出 0) yij ={ 1, i=j 0, i <> j }

Original: https://blog.csdn.net/znsoft/article/details/123460628
Author: znsoft
Title: How Can We Know What Language Models Know? 中文注释

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/544699/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球