《知识图谱概念与技术》读书笔记:关系抽取中基于模式的抽取

读完可以回答以下问题:

  1. 基于模式的关系抽取定义是什么?
    2.基于模式的关系抽取方法及各自的优缺点有哪些?
    3.基于模式的关系抽取的质量评估方式有哪些?

1.基于模式的关系抽取通过定义在文本中表达的字符、语法或者语义模式,将模式与文本的匹配作为主要手段,来实现关系实例的抽取。

2.基于模式的关系抽取可以分为:

来自于专家定义的模式:

优缺点:质量精良,抽取准确率高。但是成本高昂,召回率低。

1)基于字符的模式:

表达特定关系的字符模式同时是一组正则表达式。对于模式和文本的相似性有较高的要求。当模式具有一定的泛化模式时,容易引入更多的错误。

2)基于语法的模式:

基于语法的模式能够增强模式的表达能力,语法包括词法(引入词性标签等)和句法。这种模式构造容易,且有较好的准确率。

3)基于语义的模式:

优化语法模式的一种重要手段就是引入语义元素(如概念),可以更加精准地表达模式适配的范围,从而增强模式的描述能力,从而实现高精度抽取。

引入概念的语义模式依赖于比较完善的概念图谱。但随着概念图谱的普及,这一模式也有着更加广泛的应用。

自动化模式抽取:

自举法(Bootstrapping):”模式抽取+实体抽取”循环迭代,这个过程也称为”滚雪球(Snowball)”

步骤一:为该类关系类型标注少量初始种子实体对。

步骤二:找到实体对在文本语料库中所出现的句子集合。

步骤三:基于这些句子抽取表达关系的模式(模式抽取)。

步骤四:是用新发现的模式去语料库中抽取新的实体对(实体抽取)。

自举法的代表成果:DIPRE系统,Snowball系统,KnowItAll系统

优缺点:自动,高效。但质量不容易保证,例如:模式容易出现语义漂移,互联网的海量语料中存在很多噪声。

3.基于模式抽取的质量评估

质量评估通常从两个角度进行判断: 实例与模式的匹配程度,以及 模式本身的置信度

在衡量实例和模式匹配时,完全匹配少之又少。因此,通常使用模糊匹配的度量指标Jaccard相似度、编辑距离、加权匹配等分数。

模式本身的置信度可以通过在实际匹配中的表现来评估。通常使用准确率作为置信度的度量。

Original: https://blog.csdn.net/pony1001/article/details/112515441
Author: Tina Tang
Title: 《知识图谱概念与技术》读书笔记:关系抽取中基于模式的抽取

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/558443/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球