论文阅读《PTR: Prompt Tuning with Rules for Text Classification》

2023年6月1日下午12:00 • 人工智能 • 阅读 70

PTR: Prompt Tuning with Rules for Text Classification

提出背景

Prompt-oriented fine-tuning加速收敛，对少次学习很友好

Prompt-tuning收敛变慢，因为参数变少

Prompt 痛点

Hard prompt 设计麻烦

Auto prompt 效率太低

Soft prompt 需要大模型来保证效果

Verbalizer 设计也很复杂

论文阅读《PTR: Prompt Tuning with Rules for Text Classification》

cat/dog也可以用于情感分类

使用相同的[模板]，不同的[标签词]会产生不一样的效果。例如great/terrible 和cat/dog 这两组标签词的效果不一样，而且即便是相同标签词，互换顺序也会导致最终效果有所变化，例如 cat/dog 和dot/cat 。使用相同[标签词]，对[模板]进行改动（例如增删标点）也会呈现不同的结果。

基于prompt的情感分类

核心思想

对于关系分类这样复杂的多分类任务（预测两个标记实体之间的语义关系），手动找到合适的模板、合适的标签词来区分不同的类很有挑战性。例如”person:parent “和”organization:parent “。

PTR 核心思路

只设计简单的sub-prompt ，利用逻辑规则来组装sub-prompt(兼容hard prompt 、auto prompt 、soft prompt)，大量先验的规则可以用进来利用类别之间的关联信息，并且相比手工设计所有类的模板和单独的标签词，将子提示组合成针对任务的提示更高效。（为每个类都设计label会很复杂）

PTR模型

模板定义

将输入x 送入模板，得到T (x ),再将T (x )送入roberta 模型进行编码，取[mask] token 的logits ，预测gound truth 关系对应的词。在代码实现时，图中绿色[mask]是用三个[mask] token 来表示的，每个分别预测”‘s”、”parent”、”was”。

每一种关系y ，都可以用五个token 来表示。公式（5 ）表示，在输入x 的条件下输出y 的概率，五个mask 分别预测y 对应的五个token 。其中φ表示y 到手工模板的映射，如org:founded_by —> organization was founded by person 。

作者根据给定的42 种关系，手工构造了42 个模板：

部分模板展示

模型的损失函数

代码的loss 为两部分MLM loss + sentence CE loss 。

作者将五个mask 分别用各自的list 存放：

第一个mask 对应3 种可能的token: [person , organization , entity, …]

第二个mask 对应3 种可能的token: [‘s , is , was]

第三个mask 对应24 种可能的token: [died , founded, …]

第四个mask 对应9 种可能的token: [of , by , in …]

（关系用3 个token 来表示）

第五个mask 对应12 中可能的token: [state , person , …]

对roberta 输出的编码结果，取5 个mask 对应的logits,计算交叉熵，得到各自的loss 。再把这5 个loss 加和，得到MLM loss 。

每个关系类别的logits 的计算方式：在计算MLM loss 时，已经算出了5 组logits(每个mask 处一组)。每个关系通过φ函数映射出五个token,每个token 去各自的那组logits 中，取出自己token 所在位置的logits,再将这5 个logits 加和，得到这组关系的relation logits 。

整句话的ce loss 计算方式为：先算出每个关系类别的logits （42 个），再过softmax ,并计算跟ground truth 的交叉熵。

实验结果 – 与采用其他方法的关系抽取模型做对比

所用数据集：

TACRED(2017)

关系分类中规模最大、使用最广泛的数据集之一，包含42 种关系类型。

TACREV(2020)

找出并纠正TACRED 验证集和测试集中的错误，训练集保持完整。

ReTACRED (2021)

解决了原始TACRED 数据集的一些缺点，重构了它的训练集、验证集和测试集，还修改了一些关系类型。

SemEval (2010)

关系分类传统数据集，具有10 种关系类型。

较直接参数微调效果要优

与融入知识图谱的预训练语言模型效果相当

与其他使用prompt 的模型对比，也有一定优势

Prompt 能较好地激发模型内的结构化知识信息

（Type marker 给出了每个实体的类型，全量模型上效果会更好，但在少次学习上不如PTR ）

预模型模型本身含有丰富的结构化信息，但是不容易激发出来。

融入知识图谱可以看作一种shortcut

Prompt 能更好激发模型内在的结构化知识信息

PTR适用于少次学习

与之前浙大的一篇工作的对比：

两篇文章看得都比较早，这个比较意义已经不大了，现在两个团队都有了新的模型和更好的结果。

AdaPrompt: Adaptive Prompt-based Finetuning for Relation Extraction

PTR优势：

Sub-prompt 设计简单

Sub-prompt 的verbalizer设计也简单

未来工作：

大规模prompt tuning 上进行尝试

Soft prompt 、auto prompt 与规则结合

总结

这篇文章可以说是基于prompt做关系抽取的开山之作，解释性好，效果也好。但是可能规则的加入限制了模型的效果，后面已经有了一系列工作取得了更好的性能。

Original: https://blog.csdn.net/cjw838982809/article/details/126211496
Author: 沐神的小迷弟
Title: 论文阅读《PTR: Prompt Tuning with Rules for Text Classification》

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556767/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CUlane数据集介绍

culane数据集是车道线检测的一个比较通用的数据集，是由SCNN这篇论文提出的。它是由安装在六辆由北京不同驾驶员驾驶的不同车辆上的摄像机收集的。收集了超过55小时的视频，并提取…

人工智能 2023年5月26日
0064
一种机器翻译的评估方法 BLEU

title: BLEU date: 2021-08-17 18:23:27 tags: NLP的一些收获论文链接 BLEU: a Method for Automatic Eva…

人工智能 2023年5月28日
0067
【深度学习实验】第四次：Python波士顿房价之构建回归预测模型

; 一、实验介绍 1.1 实验内容本实验中，我们将学习回归分析算法 Lasso 算法。使用 Python scikit-learn 机器学习工具。 1.2 实验知识点回归嵌入…

人工智能 2023年6月17日
0067
#保姆级# StanfordCoreNLP — 句法分析 + 可视化

句法分析（Constituency Parsing）是NLP领域非常重要、也是相对基础的解析任务。句法分析的任务，就是解析出句子中的短语结构、短语之间的层次句法关系。通过Sta…

人工智能 2023年5月28日
0082
表白墙服务器版【交互接口、服务器端代码、前端代码、数据存入文件/数据库】

一、准备工作 1) 创建 maven 项目 2) 创建必要的目录 webapp, WEB-INF, web.xml；web.xml如下：二、约定前后端交互接口所谓 &#822…

人工智能 2023年7月18日
0048
r语言热图对列不进行聚类_微生物群落文章中的热图都有哪些神奇操作？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0072
【自动驾驶】高级辅助驾驶系统与车联网

【自动驾驶】高级辅助驾驶系统与车联网 Note：本文是对刘春晖教授的高级辅助驾驶系统与车联网(上)，高级辅助驾驶系统与车联网(下) 论文进行排版整理，由于论文中插图较多，并没有全…

人工智能 2023年6月10日
00123
神经信息传递法(MPNN)—预测分子和材料特性

神经信息传递法（MPNN）—预测分子和材料特性前言基于图神经网络（ GNN）的方法在模拟复杂相互作用方面具有巨大的潜力，被广泛应用于分子量子力学性质以及材料预测的预测。目前为止…

人工智能 2023年7月13日
0086
挖掘建模④—关联规则及Apriori算法案例与python实现

Python介绍、 Unix & Linux & Window & Mac 平台安装更新 Python3 及VSCode下Python环境配置配置pytho…

人工智能 2023年6月19日
0095
什么是边缘计算？

什么是边缘计算？ * – 壹、背景 – 贰、概念 – 叁、原则 – 肆、架构 – 伍、边缘计算解决了哪些问题 &#821…

人工智能 2023年5月27日
0066
NLP的Token embedding和位置embedding

Token Enbedding，也是字符转向量的一种常用做法。 import tensorflow as tf model_name = "ted_hrlr_transl…

人工智能 2023年5月24日
0083
手把手教你win10下安装Anaconda

1.简介： Anaconda简单理解来说，就是一个大的环境池子，池子里面有不同的环境。每个环境用不同的名称进行标识。当我们需要哪个环境时，就在anaconda中激活哪个环境去使用即…

人工智能 2023年7月26日
00159
YOLOv7训练自己的数据集(超详细）

介绍 2022年7月，YOLOv7来临，论文链接：https://arxiv.org/abs/2207.02696 代码链接： GitHub – WongKinYiu…

人工智能 2023年7月25日
0089
股价暴跌了54%以后，雅乐科技（YALA）的多元化还需要更长的时间

来源：猛兽财经作者：猛兽财经增长放缓导致雅乐科技的估值被下调 2022年至今，雅乐科技（YALA）的股价已经暴跌了-54%，而同期标普500指数仅下跌了-19%。根据S&amp…

人工智能 2023年6月28日
0089
ReID基础 | 表征学习和度量学习

从训练reid网络的损失函数方面进行分类，可以分为表征学习和度量学习。 [TencentCloudSDKException] code:FailedOperation.Servic…

人工智能 2023年6月2日
0062
机器学习_深度学习毕设题目汇总——图像分类

下面是该类的一些题目：题目基于三维卷积神经网络的高光谱遥感图像分类技术研究基于判别性特征学习的极化SAR图像分类基于卷积神经学习表征框架的高光谱图像分类基于卷积神经网络与邻域相关…

人工智能 2023年6月15日
00104

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

论文阅读《PTR: Prompt Tuning with Rules for Text Classification》

大家都在看