开放信息抽取(OIE)系统（一）–概述

2023年6月1日下午6:25 • 人工智能 • 阅读 113

开放信息抽取(OIE)(一)——概述

开放信息抽取（OIE）是信息抽取的一种全新的范式，主要思想是减少人工参与，无监督地进行信息抽取，抽取那些实体、关系未定义地情形。
早期，10年代，即机器学习时代等，经典的开放信息抽取系统，一般是利用发展较为成熟、应用较为广泛的、通用的词性标注、依存句法、成分句法、语义角色标注等技术，抽取主谓宾等三元组。
到了20年代，主要是用到早期系统抽取的结果进行有监督的学习，来进行抽取，一般是比较大的语料库。

一、概述

1.1 开发域无/弱监督信息抽取

开放域无/弱监督信息抽取一般存在三种方式，即自助法(Bootstrap)、远程监督(Distant-Supervision)、开放信息抽取(OpenIE)等。
开放信息抽取使用通用NLP工具(词性、依存句法、语义角色、从句)，可以在无监督的条件下从句子中抽取三元组，但是无法定义关系类别；
远程监督方法利用已有的大型通用知识图谱的三元组进行半监督学习。存在强假设一对实体体中只存在一种关系问题、语义漂移问题；
自助法是把一种关系的少量实体对，作为种子，发现该关系的更多新实体对。存在语义漂移问题、迭代法查准率会不断降低。

二、信息抽取

2.1 定义

信息抽取（ IE，Information Extraction）是把文本里包含的信息进行结构化处理，变成表格一样的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。信息点从各种各样的文档中被抽取出来，然后以统一的形式集成在一起。这就是信息抽取的主要任务。信息以统一的形式集成在一起的好处是方便检查和比较。信息抽取技术并不试图全面理解整篇文档，只是对文档中包含相关信息的部分进行分析。至于哪些信息是相关的，那将由系统设计时定下的领域范围而定。

信息检索（IR）和信息抽取（IE）的区别:IR的目的是根用户的查询请求从文档库中找出相关的文档, 用户必须从找到的文档中翻阅自己所要的信息。就其目的而言，IR和IE的不同可表达如下：IR从文档库中检索相关的文档，而IE是从文档中取出相关信息点。这两种技术因此是互补的。若结合起来可以为文本处理提供强大的工具。

IR和IE不单在目的上不同，而且使用的技术路线也不同。部分原因是因为其目的差异，另外还因为它们的发展历史不同。多数IE的研究是从以规则为基础的计算语言学和自然语言处理技术发源的。而IR则更多地受到信息理论、概率理论和统计学的影响。

2.2 任务

信息抽取中的信息通常指的是实体（entity）、关系（relation）和事件（event）等，也就是定义了以下任务：
实体任务: 实体抽取、实体链指、实体消歧、属性抽取;
关系任务：关系预测、三元组抽取、实体关系抽取;
事件任务：事件抽取、触发词识别、事件类型分类、论元识别和角色分类。

2.3 应用

由于能从自然语言中抽取出信息框架和用户感兴趣的事实信息，无论是在知识图谱、信息检索、问答系统，还是在情感分析、文本挖掘中，信息抽取都有广泛应用。

三. 开放信息抽取

信息抽取（IE）是一种从非结构化或半结构化文本中提取结构化信息的技术。而开放信息抽取（OIE, Open Information Extraction）系统旨在以无监督的方式从非结构化文本中抽取不可见的关系及其参数。简而言之就是开放域信息抽取。在最简单的形式中，给定一个自然语言句子，它们以三元组的形式提取信息，包括主语（S）、关系（R）和宾语（O）。
任务形式为: 输入句子, 输出三元组; 识别正确的边界。

3.1 开放信息抽取系统历史

传统的信息抽取存在的限制是：在小型同质语料库上实现高精度、范围窄且预先指定的提取请求，而且需要人类的广泛参与标注与规则制定。下图不同时期开放信息抽取（OIE）的主要思想（main-feature）：

TEXTRUNNER: 本文介绍了开放信息抽取(OIE)-一种新的抽取范式，有助于从文本和文本中抽取关系的领域独立发现很容易扩展到Web语料库的多样性和大小。OIE系统的唯一输入是一个语料库及其输出是一组提取的关系。This paper introduces Open Information Extraction (OIE)—a novel extraction paradigm that facilitates domain-independent discovery of relations extracted from text and readily scales to the diversity and size of the Web corpus. The sole input to an OIE system is a corpus, and its output is a set of extracted relations.
REVERB: 开放信息抽取(OIE)是一项从大规模语料库中提取断言, 而不需要预先指定的词典的任务。Open Information Extraction (OIE) is the task of extracting assertions from massive corpora without requiring a pre-specified vocabulary.
ClausIE: 开放信息抽取(OIE)的目的是获取大量自然语言文本的浅层语义表示, 其形式是(verbs, verbal phrases, arguments), OIE目标的主要特点是:（1）域独立性,（2）无监督抽取,（3）对大量文本的可扩展性。Open information extraction (OIE) aims to obtain a shallow semantic representation of large amounts of natural language text in the form of verbs (or verbal phrases) and their arguments . The key goals of OIE are (1) domain independence, (2) unsupervised extraction, and (3) scalability to large amounts of text.
RnnOIE: 开放信息抽取系统的目标是提取自然语言中表示一个句子基本命题断言的元组对.(Open Information Extraction (Open IE) systems extract tuples of natural language expressions that represent the basic propositions asserted by a sentence.
CopyAttention: 开放信息抽取（OIE）涉及在文本中生成信息的结构化表示，通常是三元组或N元组形式的任务。开放的IE系统不仅抽取实体，还能抽取关系而不依赖于预先定义的类型模式。Open Information Extraction (Open IE) involves generating a structured representation of information in text, usually in the form of triples or n-ary propositions. An Open IE system not only extracts arguments but also relation phrases from the given text, which does not rely on pre-defined ontology schema.
OPENIE6: 开放信息抽取(OIE)是一种无本体的信息抽取、抽取(主语; 关系; 宾语)范式。Open Information Extraction (OpenIE) is an ontology-free information extraction paradigm that generates extractions of the form (subject; relation; object).

; 3.2 开放信息抽取系统主要思想

Banko等人（2007年）第一次提出了开放信息抽取（OIE, Open Information Extraction）的概念，设计了Textrunner系统，该系统在IE方法所需的手动工作中引入了一种新的提取范式: 即openie不局限于一小部分已知的目标关系，而是提取文本中发现的所有类型的关系，也就是无监督抽取。此后Wu and Weld等（2010年）提出了WOE系统，Mausam等（2012年）提出了OLLIE系统，这些系统有一个通用的范式，即先抽取实体再抽取关系，实体抽取一般采用句子成分、词性标注、依存句法、自助法等方式；关系抽取则是依照一定的规则等构建训练集，训练好一个机器学习分类器进行关系预测，通常被称为第一代开放信息抽取系统。

虽然第一代开放信息抽取系统开创了一个时代，取得了不错的效果，但是依旧存在比较严重的三个问题: 即大量非关键提取（即省略关键信息的提取）、非一致性提取（即关系短语没有有意义的解释）和冗余关系提取（传达了太多的信息），这些问题给进一步的下游语义任务中使用造成了很大的困难。所以第二代开放信息抽取便呼之欲出了。

第一代开放信息抽取系统抽取的关系词语可能没有可解释性的意义，即序列决策时存在误差；此外抽取忽略了关键性的信息，原因是没有处理好light verb constructions (LVCs, 动词和名词组成的多词谓语，并且名词携带了谓词的语义信息)。由此，Fader等（2011年）提出了REVERB系统，首先抽取动词的关系，然后再寻找名词性短语作为实体。这种基于关系构建规则的方法能达到很高的召回率，使用比较广泛。此后，Mausam等(2011, 2016年)提出的OPENIE4系统, 结合语义角色抽取SRL、名词性短语RELNOUN等两种思路, 至今仍然是应用最广泛的开放信息抽取系统。Likun Qiu等（2014年）提出了中文ZORE系统，即所谓的双重传播语义标注，基本思想是通过对候选关系中参数的首词进行语义标记来迭代地识别关系和实体。White等（2016年）提出了PredPatt系统，使用通用依赖（UD）解析规则、构建有向图、提取谓词参数结构，不受语言的限制支持不同语种。Yuen-Hsien Tseng等（2018年）提出了的中文CORE系统，认为不需要多余的处理，开放的源码实现为依靠语义角色标注和LTP依存句法。

第二代开放信息抽取系统能够抽取到召回率很高的三元组，那么能不能抽取精确率更高的三元组呢，答案是可以的。那就是基于子句的第三代开放信息抽取系统（clause-based），这种系统的思路是引入一个句子重组阶段，将复杂句子转化为简单句，然后利用句子成分进行三元组的抽取。Del Corro and Gemulla等（2013年）提出了ClausIE系统，使用语法知识(句子重组)的方法转换复杂句子，语法和从句等分析句子成分。Angel等（2015年）提出了Stanford Open IE系统，使用学习分类器判断一组句子是否构成独立子句(简单句)，然后通过手工构建的14种规则抽取三元组。Gashteovski等（2017年）提出了MinIE系统，构建在ClausIE系统之上，重点关注冗余项, 是不是可信。

然后便进入了深度学习时代，提出了基于深度学习的第四代开放信息抽取系统。第四代开放信息抽取系统的思路主要是：1.未标注语料使用OPENIE4系统等构建高召回的训练集(自助法)；2.使用1中获取到的数据集，抽取式或生成式的端到端深度学习。这一时期的主要论文如下图所示：

2018
RnnOIE: Supervised Open Information Extraction
CopyAttention: Neural Open Information Extraction
2019
SenseOIE: SupervisingUnsupervisedOpenInformationExtractionModels
2020
SpanOIE(BiLSTM_span): Span Model for Open Information Extraction on Accurate Corpus
Multi2OIE(BERT+Classify+Attention): Multilingual Open Information Extraction based on Multi-Head Attention with BERT
IMoJIE(BERT+CopyAttention): Iterative Memory-Based Joint Open Information Extraction
OpenIE6(BERT+IGL(Attention+Label-encode))): Iterative Grid Labeling and Coordination Analysis for Open Information Extraction

五. 评估指标

测试集的评估指标不高，似乎达不到可用的效果，通常用如下指标评估：
抽取(# extractions)
非冗余抽取(# non-redundant extractions)
召回率(recall)
事实精度, 即正确的(factual precision)
归因精确度, 即有条件的(attribution precision)
每个元组平均字数, 代表最小值(mean word count per triple (proxy for minimality))

; 六. 常见的错误类别

（1）错误的边界，其中关系短语或参数短语太长或太长太小;
（2）冗余抽取，抽取中断言的命题已经表达在另一个抽取中;
（3）非信息抽取，其中关键信息被省略;
（4）缺失提取，即假阴性，其中系统或参数未检测到关系、查找启发式选择错误参数或根本没有参数;
（5）错误提取，其中没有有意义的命题解释是可能的;
（6）范围外提取，其中一个系统产生了gold数据集的作者无法识别的正确提取。

论文与文章

oie-resources: https://github.com/gkiril/oie-resources
信息抽取: KnowItAll 和TEXTRUNNER： https://zhuanlan.zhihu.com/p/144639801
Survey: https://www.aclweb.org/anthology/C18-1326/
TEXTRUNNER: https://www.aaai.org/Papers/IJCAI/2007/IJCAI07-429.pdf
WOE: https://www.aclweb.org/anthology/P10-1013.pdf
REVERB: https://www.aclweb.org/anthology/D11-1142
OPENIE4-SRL: http://ai.cs.washington.edu/www/media/papers/tmpSIpV1y.pdf
OPENIE4-RENOUN: https://www.aclweb.org/anthology/W16-1307.pdf
OLLIE: https://www.aclweb.org/anthology/D12-1048
ClausIE: http://telemedicina.unifesp.br/pub/Events/2013-05%20-%20WWW2013/www2013/www2013.org/proceedings/p355.pdf
ZORE: https://www.aclweb.org/anthology/D14-1201/
CORE: https://ai2-website.s3.amazonaws.com/publications/10094_Paper.pdf
stanford-openie: https://www.aclweb.org/anthology/P15-1034/
RnnOIE: https://www.aclweb.org/anthology/N18-1081.pdf
SpanOIE: https://arxiv.org/pdf/1901.10879.pdf
CopyAttentionOIE: https://arxiv.org/pdf/1805.04270.pdf
Seq2seqOIE: https://arxiv.org/pdf/1805.04270.pdf
Multi2OIE: https://arxiv.org/abs/2009.08128
IMoJIE: https://www.aclweb.org/anthology/2020.acl-main.521/
OpenIE6: https://arxiv.org/abs/2010.03147
Multi2OIE: https://arxiv.org/abs/2009.08128
IMoJIE: https://www.aclweb.org/anthology/2020.acl-main.521/
OpenIE6: https://arxiv.org/abs/2010.03147

Original: https://blog.csdn.net/rensihui/article/details/115435285
Author: Macropodus
Title: 开放信息抽取(OIE)系统（一）–概述

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558018/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

飞睿科技乐鑫代理商，新型多媒体开发板方案，支持人机交互应用

ESP32-S2-Kaluga-1是基于ESP32-S2芯片的新型多媒体开发板，支持LCD屏幕显示、Touch面板控制、摄像头图像采集、音频播放等功能。该开发板可以灵活拆装，满足用…

人工智能 2023年5月25日
00110
安装Pytorch-gpu版本（第一次安装或已经安装Pytorch-cpu版本后）

由于已经安装了cpu&am…

人工智能 2023年6月23日
0088
数据专家最常使用的 10 大类 Pandas 函数 ⛵

💡 作者：韩信子@ShowMeAI 📘数据分析实战系列：https://www.showmeai.tech/tutorials/40 📘本文地址：https://www.showm…

人工智能 2023年7月17日
0073
课程设计-在校整理-10 基于知识图谱的医疗智能问答小程序实现示例

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月1日
0078
【论文笔记】（Corr 2022） Knowledge Graph Embedding Methods for Entity Alignment: An Experimental Review

Knowledge Graph Embedding Methods for Entity Alignment: An Experimental Review 原文代码 1 Intr…

人工智能 2023年6月10日
00106
【MobileNetV3】MobileNetV3网络结构详解

文章目录 1 MobileNetV3创新点 2 block变成了什么样 * 2.1 总体介绍 2.2 SE模块理解 2.3 ReLu6和hardswish激活函数理解 3 网络总体…

人工智能 2023年7月20日
0070
【综述】分子表示与性质预测中的深度学习方法

Deep learning methods for molecular representation and property prediction 目录总结一、Introdu…

人工智能 2023年7月28日
0065
利用opencv带你玩转人脸识别-下篇（人脸录入，数据训练，人脸识别小案例快速入门）

本文将介绍如何使用 OpenCV_进行 _人脸识别_模型的 _训练。 1. 收集人脸数据首先需要准备一些标记了人脸_的图像，可以通过人工标注或使用自动化工具来收集。要求每个…

人工智能 2023年6月23日
00100
pytorch查看网络架构的几种方法

一、Print(model) import torch from torch import nn net = nn.Sequential(nn.Linear(4, 8), nn.R…

人工智能 2023年7月28日
0045
mmclassification安装与调试

MMClassification 是一款基于 PyTorch 的开源图像分类工具箱，是 OpenMMLab 项目的成员之一主分支代码目前支持 PyTorch 1.5 以上的版本。…

人工智能 2023年6月30日
0073
数据挖掘：针对小样本与不均衡样本的机器学习算法实践

01 小样本、不均衡样本在分类任务中普遍存在随着计算能力、存储空间、网络的高速发展，人类所积累的数据量正在快速增长，而分类在数据挖掘中是一项非常重要的任务，已渐渐融入到了我们的日…

人工智能 2023年7月18日
0060
yoloV5训练出错：wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[your_api_

一、参考来源 wandb.errors.UsageError: api_key not configured (no-tty). call wandb.login(key=[you…

人工智能 2023年7月5日
0066
目标检测笔记No.6 一行代码背后，寻DETR中的测试过程中的边框

首先，来说说我的指代的代码在detr源码项目中 main.py中： test_stats, coco_evaluator = evaluate(model, criterion, …

人工智能 2023年7月12日
0071
Windows 配置OPENCV扩展库opencv_contrib（3.4.16）

本人其实已经配好了opencv，但是发现有的需要扩展库，于是参考了很多开始配置的漫漫长路整个过程可参考以下3个结合着看，本文主要记录自己的过程及补充，格式混乱请别介意 1、ope…

人工智能 2023年7月19日
0062
模型评价 – 分类模型的常用评价指标

习题答案习题一答案一、选择题 1. 软件的主要特性是(A B C)。 A) 无形 B) 高成本 C) 包括程序和文档 D) 可独立构成计算机系统 2. 软件工程三要素是(…

人工智能 2023年7月2日
0091
【语音算法】wav2vec系列原理和使用

文章目录前言 1. wav2vec 2. vq-wav2vec 3. wav2vec2.0 * 3.1 encoder 3.2 context 3.3 wav2vec2.0的使用…

人工智能 2023年6月23日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31