关系抽取——Snowball(半监督学习)总结

本文主要参考2000年的Snowball提出论文

半监督学习又称弱监督学习,利用模型的假设,对少量的数据进行标注(freebase),在不足的条件下提高模型在标记样本中的泛化能力,未标记的数据为Corpus text。

在论述Snowball之前,先看Boost strap,他是介于监督学习和半监督学习的算法。

1 Boost strap

根据已知的标记数据seed库,生成规则。在利用该规则在text中进行遍历,生成新的规则,新规则入库,作为标记的数据进行重新遍历。缺陷就是如果生成的一个规则不准确,这个错误的规则会在库中逐渐增大,导致正确率逐渐降低。

关系抽取——Snowball(半监督学习)总结
接下来Snowball基于这个缺陷,进行了改进。

; 2 Snowball

2.1 Snowball介绍

snowball在2000年被提出,论文地址

提供了一种从文本文档生成模式和提取元组的新技术,此外,snowball还介绍了一种策略,用于评估在提取过程的每次迭代中生成的模式和元组的质量,只有那些被认为”足够可靠”的元组和模式才会被雪球保留,用于系统的后续迭代。

关系抽取——Snowball(半监督学习)总结

; 2.1 生成模式

定义规则:五元组构成( L , 实 体 1 , M , 实 体 2 , R ) \color{red}(L,实体1,M,实体2,R)(L ,实体1 ,M ,实体2 ,R ),其中,LMR是向量。

关系抽取——Snowball(半监督学习)总结

tuple之间的匹配度定义:根据lmr三个向量来计算匹配度。

关系抽取——Snowball(半监督学习)总结

2.2 生成tuple

在生成模式之后,进一步发现新的tuple。给定文本与规则库中的每个规则计算相似度,相似度大于阈值的入tuple库。

计算上面提到的匹配度,大于阈值就入库,成为新的tuple,如下图。

关系抽取——Snowball(半监督学习)总结
然后,每个候选tuple都有许多帮助生成它的模式,每个模式都有相应的匹配程度。snowball使用这些信息以及关于模式选择性的信息来决定将哪些候选元组实际添加到它正在构建的表中。

; 2.3 评估模式

直观地说,模式和上下文之间的匹配程度越低,产生无效元组的可能性就越大,通过计算模式的置信度来决定该模式是否被选择,否则错误的模式产生更多错误的元组。

模式P的置信度计算公式为:

关系抽取——Snowball(半监督学习)总结
其中,P正是P的正匹配个数,P负是P的负匹配个数,由此计算P的置信度。

举例:对于模式P=< {} , ORGANIZATION ,

Exxon, Irving, said”
Intel, Santa Clara, cut prices”
“invest in Microsoft, New York-based analyst Jane Smith said”

如果,

以上置信度只是其中的一种,也可以采用其他的置信度计算方式。比如下面的:

关系抽取——Snowball(半监督学习)总结

我们在进行模式置信度评估中,没有考虑迭代之前的置信度,所以也可以通过权值来考虑之前该模式的置信度。

关系抽取——Snowball(半监督学习)总结
如果参数W

Original: https://blog.csdn.net/weixin_42327752/article/details/121401925
Author: Weiyaner
Title: 关系抽取——Snowball(半监督学习)总结

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548586/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球