信息抽取简介

为什么要进行信息抽取:

从非结构化的文本中抽取出一些非常重要的、关键的、人们关心的数据 。核心店:挖实体+实体间的关系

信息抽取简介
三元组表示(属于知识图谱范围):
信息抽取简介
信息抽取简介
信息抽取为什么这么重要?1、问答系统。2、扩充原有的知识库。3、用于法律、金融领域
一些关系展示:
信息抽取简介
信息抽取简介

; Ontological Relation

IS-A
Instance-of
例如:

信息抽取简介
开源的知识库:
信息抽取简介
关系抽取方法介绍:
信息抽取简介

基于规则的方法

例如:提取IS-A关系。
规则集:{X is a Y 、Y(such as)X 、Y including X、 Y,especially X 、X or other Y …} 该规则集都是X-Y,同时我们可以将抽取的结果放入到数据库中。
但是此方法有局限性,比如:掺杂一些不想要的信息,原因:没有细化规则;可以找出来的两对实体会造成异常值,解决办法:在规则集中定义X和Y的类别,如下图所示:

信息抽取简介
这样改进的好处:1、提升挖掘结果准确率;2、可以只返回想要的结果;
规则集好处:1、比较准确;2、不需要训练数据(当数据量比较少的时候)
规则集缺点:1、low record rate,因为人的思维有限,有时候会漏掉很多规则 ,导致大量实体没有被覆盖上;2、涉及到大量人力成本3、规则本身难设计

; 基于监督的方法

1、定义关系类型
2、定义出所有的实体类型
3、训练数据准备

  • 实体标记(类型)
  • 实体之间关系

重点内容:特征工程

例子:

American Airline, a unit of AMR, immediately match the move, spokenman Tim Wanger said;

分类算法(特征 (American Ariline, TIm Wanger))
特征工程:
1、bag-of-word(跟单词相关的特征):American Airline。Tim Wanger,
2、pos feature(跟词性相关的特征):名词、名词、动词
3、实体类别:ORG(American Airline) ,PER(Tim Wanger)
4、位置相关信息:两个实体之间包含了多少个单词?这句话再本文里的位置是什么?
5、句法分析相关特征:两个节点之间最短路径、路径经过哪些节点?
6、依存文法相关: 用语法树进行分析

关系抽取

bootstrap算法

第一步:生成规则
第二步:利用规则生成三元组
此算法是生成规则-生成三元组
缺点:人力成本高、规则多容易繁琐、数据量大的时候运行时间特别长,规则不太好写。

Original: https://blog.csdn.net/qq_38851184/article/details/114290881
Author: 九久呀
Title: 信息抽取简介

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/594730/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球