《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

2023年6月1日上午4:43 • 人工智能 • 阅读 87

《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

信息抽取大一统
原文链接：https://arxiv.org/pdf/2203.12277.pdf
参考文章：https://zhuanlan.zhihu.com/p/495600185

文章目录

摘要
1. 介绍
*
1.1 IE面临的挑战
1.2 UIE应运而生
2. 具体方法
*
UIE （SEL + SSL + 预训练）
2.1 SEL（结构扩展语言）
2.2 SSI （结构模式指导器）
2.3 预训练
3. 实验
*
3.1 实验设置与结果分析
3.2 Low-resource Settings
3.3 消融实验
总结

摘要

问题与挑战 ：这篇文章出现之前，我们进行信息抽取时会遇到抽取目标多样、复杂异构结构、领域需求多变等问题难以解决。

本文贡献：提出了一个统一的文本到结构生成框架，即UIE。它可以通用地建模不同的IE任务，自适应地生成目标结构，并从不同的知识源协作学习通用的IE能力。

具体方法：UIE通过结构化提取语言对不同的提取结构进行统一编码，通过基于模式的提示机制（结构模式提示器）自适应生成目标提取（通俗讲就是把任务的schema拼接在文本前面作为提示，比如要做NER的话，就把实体的种类放在文本前面作为提示），并通过大规模预训练的文本到结构模型获得常见的IE能力。

实验结果及分析：在4个IE任务、13个数据集以及所有有监督、低资源和小样本学习数据集上都取得了最先进的性能，对于实体、关系、事件和情感提取任务及这些任务的统一都效果很好。

介绍

本小节介绍了IE的短板和作者新提出的UIE解决现有问题的可行性与大概思路。

1.1 IE面临的挑战

信息抽取（IE）旨在从非结构化文本中识别和构造用户指定的信息。
IE的多样化：

targetsheterogeneous structuredemand-specific schemasentity, relation, event, sentiment, etc.spans, triplets, records, etc金融、体育赛事等

如上表所示，可以看到，传统方法由于IE的多样性面临多种限制，targets多样难以实现高效架构开发，复杂的多样化结构限制了有效知识共享，demand-specific schemas限制了快速跨域适配，IE面临的挑战亟待一个更好的方法。

1.2 UIE应运而生

原文作者在图1向读者整体描述了从（a）任务专用IE：不同的任务、不同的结构、不同的模式到（b）通用IE：通过结构生成进行统一建模

《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

对于图一，作者是这样解释的：从根本上讲，所有IE任务都可以建模为文本到结构的转换，不同的任务对应不同的结构，例如，”an entity is a named span structure, an event is a schema-defined record structure”.
IE中的这些文本到结构的转换可以进一步分解为几个原子转换操作:
1.第一步是做定位，定位那些想要的span的位置。例如在给定Entity PER的时候，要定位到”Steve”定位，给定sentiment expression要定位到”excited”；
2.第二步是做关联。把预先定义的schema里的语义角色分配给第一步里得到的span，并通过这种方式把他们关联起来。例如，把”Steve”和”Apple”分配为关系”work for”的参数1和参数2，也就头实体和尾实体。
通过这种方式，就能把所有的信息抽取任务分解为这两个原子任务的排列组合。同时也使得不同的信息抽取模型可以共享相同的底层能力，使多任务联合学习成为可能。

下面两图参考知乎文章：https://zhuanlan.zhihu.com/p/495600185（这篇文章写的很生动，给了我很大的启发）

本文的大致框架

; 2. 具体方法

UIE （SEL + SSL + 预训练）

本文首先设计结构化抽取语言（SEL）来统一编码异构抽取结构，即将实体、关系、事件编码为统一表示。
然后描述了结构模式指导器（SSI），这是一种基于模式的提示机制，用于控制UIE模型，以便为不同的提取设置发现、关联和生成哪个模型。
经过预训练的UIE模型由于学习了一般的IE能力，为不同IE任务之间的知识获取、共享和传递提供了坚实的基础。
SEL（结构扩展语言）:有效地将不同的IE结构编码为统一的表示形式，以便在相同的文本到结构生成框架中对各种IE任务进行通用建模，（通俗讲就是不管要实现怎样的抽取任务，都能生成由括号和冒号组成的结果），这样就完美应对了IE任务多样性带来的难题。
SSL（结构模式指导器）:基于模式的提示机制，控制UIE中要发现什么、关联什么和生成什么。这样即使是不同schema的情况下，也能够自适应的控制提取过程。
预训练：作者在从易于访问的web源挖掘的大规模异构数据集上对UIE进行预训练（实际是就是用远程监督生成了一个大规模关系抽取预训练数据集），令模型可以学习通用IE能力，并显著提高了IE在 supervised, low-resource, 以及 few-shot settings这类情况下的性能。

; 2.1 SEL（结构扩展语言）

SEL概括讲就是介绍章节提到的两个原子操作：（1）定位（一般定位的是实体或触发词）（2）关联（一般比如说根据实体对之间的关系或事件及其参数之间的角色来关联不同信息块）
如下图中，蓝色部分代表的是关系抽取任务：person为实体类型，对应了（a）中的Spot Name，work for为关系类型,对应（a）中的Asso Name；表示为（person：Steve（work for：Apple））,这样就通过”work for”这一关系连接起了实体”Steve”和”Apple”。
在附录部分，作者给出了每个数据集的SEL表达：

2.2 SSI （结构模式指导器）

SSI是在Text前拼接相应的Schema Prompt，作为结构模式指导器。如下图：
不同任务的的形式是：
1.实体抽取：[spot] 实体类别 [text]
2.关系抽取：[spot] 实体类别 [asso] 关系类别 [text]
3.事件抽取：[spot] 事件类别 [asso] 论元类别 [text]
4.观点抽取：[spot] 评价维度 [asso] 观点类别 [text]
论文的附录部分给出了每个数据集的SSI，为了更好的可视化，这里用<>替换了[]

; 2.3 预训练

Text-to-Structure训练： Dpair（SSI，Text，SEL）
1.) Dpair通过Wikipedia对齐Wikidata，构造text-to-struct的平行语料，其中每个实例都是一个并行对（token序列x，结构化记录y）， 用于预训练UIE的文本到结构转换能力。
2.)引入了negative schema，构建负样本作为噪声训练。
Structure Generation预训练： Drecord（None，None，SEL）
1.) Drecord是结构数据集，只包含SEL语法结构化record数据，其中每个状态都是结构化记录y， 用于预训练UIE的结构解码能力。
2.)为了具备SEL语言的结构化能力，对Dpair数据只训练 UIE 的 decoder 部分。
Retrofitting Semantic Representation（改进语义表示）： Dtext（None，Text’，Text”）
1.) Dtext是非结构化文本数据集，也就是纯文本， 用于预训练UIE的语义编码能力。
2.)为了具备基础的语义编码能力，对D_text数据进行 span corruption训练。
最终目标是将上述三个任务结合起来：
微调
使用teacher-forcing交叉熵损失对UIE模型进行微调：
实验

3.1 实验设置与结果分析

本文在4个具有良好代表性的IE任务（包括实体提取、关系提取、事件提取、结构化情感提取）及其组合（如联合实体关系提取）的13个IE基准上进行了实验。对所有提取任务采用端到端设置，将原始文本作为输入，并直接生成目标结构。
使用的数据集包括：
ACE04（Mitchell et al.，2005）、ACE05（Walker et al.，2006）、
CoNLL03（Tjong Kim Sang and De Meul-der，2003）、CoNLL04（Roth and Yih，2004）、
Sci-ERC（Luan et al.，2018）、
NYT（Riedel et al.，2010）、
CASIE（Satyapanich et al.，2020）、
SemEval-14（Pontiki et al.，2014）、SemEval-15（Pontiki et al.，2015）、SemEval-16（Pontiki et al.，2016）
下表为实验结果展示，表格综合来讲体现了以下三点：
1.UIE借助SEL给我们提供了一个有效的通用框架。即使不进行预训练，性能也达到了最优（结果展示在SEL列）。
2.对比于baseline，进行了预训练的模型效果最好，F1平均可以提高1.42%（结果展示在UIE列）。
3.UIE效果好，预训练十分有必要，对所有任务都有提升，SEL这个结构帮助了UIE在不同的信息提取任务中共享学习到的能力和信息，是IE的一种统一的、跨任务可转移的结构化表示。

; 3.2 Low-resource Settings

作者对4个任务中对原始训练集的6个不同partitions进行了 low-resource实验 (1/5/10-shot, 1/5/10% ratio)，对于训练集中的每个实体/关系/事件/情绪类型抽取1/5/10个句子，用不同的样本重复每个实验10次，给出其平均结果，避免了随机性。
下表为实验结果（T5-v1.1-base是UIE-base的初始模型）：

3.3 消融实验

下表为UIE base在四个下游数据集的开发集上的不同学习任务的实验结果【实体（CoNLL03）、关系（CoNLL04）、事件（ACE05 Evt）和情绪（16res）】：
为了验证谁的作用比较大，作者做了一系列的消融实验，结果如下表所示:
从表格中可以看出来：
（1）对于越小的数据集，本文的structure generation预训练任务越有用
（2）对于需要复杂语义理解的任务，掩码语言模型训练，也就是MLM更重要
（3）通过LPair映射预训练，模型可以学习扩展能力。

; 总结

本文：
（1）提出了一个统一的文本到结构生成框架UIE，它可以对不同的IE任务进行统一建模，自适应地生成目标结构，并且可以从不同的知识源中学习通用的IE能力。
（2）实验结果表明，UIE在有监督和低资源环境下都取得了非常有竞争力的性能，验证了其通用性、有效性和可转移性。
（3）发布了一个大规模的预训练文本到结构模型。
（4）展望：对于未来的工作，希望UIE可以扩展到知识库感知的IE任务，如实体链接、文档感知的IE任务，如共同引用等。

正如https://zhuanhz’nlan.zhihu.com/p/495600185中最后引用，UIE或许经过「预训练+大规模多任务学习」拓展更多IE任务，直接具备Zero-shot能力，同时具备更丰富的能力

Original: https://blog.csdn.net/KekeLoveNLP/article/details/125211372
Author: KekeLoveNLP
Title: 《Unified Structure Generation for Universal Information Extraction》论文阅读笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/554813/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

图像分割评价指标: Dice, MIoU, MPA等

目录 1、混淆矩阵 2、Dice 3、MIoU 4、MPA 仅为个人结合一些博客的理解。 1、混淆矩阵如果是k+1分类问题，就会生成(k+1)*(k+1)的混淆矩阵（具体定义可参…

人工智能 2023年6月16日
0088
【数模之数据分析-1】

对于ndarray结构老说&#xFF0C…

人工智能 2023年7月14日
0087
CVPR 2021 结果出炉！最全论文下载及分类汇总（更新中）

作为计算机视觉领域三大顶会之一，CVPR2021目前已公布了所有接收论文ID，一共有1663篇论文被接收，接收率为23.7%，虽然接受率相比去年有所上升，但竞争也是非常激烈。此前…

人工智能 2023年7月1日
0081
pycharm配置python环境

文章目录 * – + 安装pycharm + 安装python + pycharm配置python,并激活 + pycharm界面 + 运行一下 + 取消更新安装py…

人工智能 2023年7月4日
0037
【我是土堆 – PyTorch教程】学习随手记

目录 1. Pytorch环境的配置及安装如何管理项目环境？如何看自己电脑cuda版本？安装Pytorch 2. Python编辑器的选择、安装及配置 PyCharm PyC…

人工智能 2023年7月20日
0067
三维重建之条纹投影结构光（二）——四步相移+三频外差法

接上文：针对上文思路进行验证，本篇博客主要对相位进行求解，首先，对上面博客的理论进行复述，然后包括相位主值的计算和相位展开。四步相移+三频外差理论推导相位主值求取—四步相移法…

人工智能 2023年6月19日
00459
CNN的基本概念、常用的计算公式和pytorch代码

文章目录一、CNN的基本概念二、常见的卷积 * 1.一般卷积 2.扩张卷积(空洞卷积) 3.转置卷积(反卷积) 4.可分离卷积 – 4.1.空间可分离卷积 4.2….

人工智能 2023年7月24日
0060
pandas——excel表格中xls文件和xlsx文件，txt文件格式

xls——pandas + xlrd两个外部函数库 xlsx——pandas + openpyxl两个外部函数库 xls格式的文件：首先需要 Win+R，输入 cmd打开命令行，…

人工智能 2023年7月8日
0096
机器学习——Adaboost 算法

机器学习——Adaboost 算法资料来源：《MATLAB 神经网络 43 个案例分析》 Adaboost算法思想 Adaboost算法的基本思想是合并多个弱分类器来实现更为有效…

人工智能 2023年7月28日
0050
《Python程序设计与算法基础教程（第二版）》江红余青松课后选择题课后填空题答案

一、选择题 Python语言属于 C A.机器语言 B.汇编语言 C.高级语言 D.以上都不是在下列选项中，不属于Python特点的是 B C.可移植性 D.免费和开源 A.面向…

人工智能 2023年7月29日
0077
用Python剪辑视频？太简单了

人生苦短，快学Python！最近我在网上下载一个视频，结果下载到本地是近百个视频片段，为了方便观看只能将这些片段合并为一个视频整体。不过我并没有搜到能够处理类似情况的小工具，只…

人工智能 2023年7月5日
00116
pyspark学习42-43：删除重复行、删除有空值的行、填充空值、filter过滤数据

对应笔记3.3，视频42-43 1、删除重复行 df = spark.read.csv(‘/sql/customers.csv’,header=True) …

人工智能 2023年7月8日
0059
Opencv中的cv2.calcHist()函数的作用及返回值

在讨论其返回值前，我们先来介绍以下calcHist()函数的用法： cv2.calcHist()函数 cv2.calcHist()函数的作用：通过直方图可以很好的对整幅图像的灰度分…

人工智能 2023年6月23日
0087
数字图像处理——实验二数字图像增强实验

数字图像处理——实验二数字图像增强实验一、实验目的二、实验主要仪器设备三、实验原理四、实验内容及代码 * 4.1 实验内容 4.2 实验数据 4.3 实验代码 &#821…

人工智能 2023年6月19日
00101
会思考的机器你造嘛——AI技术

目录前言一、人工智能的划分二、人工智能关键技术三、鸢尾花数据集实践人工智能（附代码）总结系列文章目录前言近年来，人工智能（Artificial In…

人工智能 2023年6月4日
00113
Yolov5

Yolov5 文章目录 Yolov5 * – 一. Yolov5 现状二. Yolov5 模型结构（一）Yolov5 2.0 （二）Yolov5 6.0 + 输入端…

人工智能 2023年7月27日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31