关系抽取——Snowball(半监督学习)总结

2023年5月31日上午4:14 • 人工智能 • 阅读 81

本文主要参考2000年的Snowball提出论文

半监督学习又称弱监督学习，利用模型的假设，对少量的数据进行标注（freebase），在不足的条件下提高模型在标记样本中的泛化能力，未标记的数据为Corpus text。

在论述Snowball之前，先看Boost strap,他是介于监督学习和半监督学习的算法。

1 Boost strap

根据已知的标记数据seed库，生成规则。在利用该规则在text中进行遍历，生成新的规则，新规则入库，作为标记的数据进行重新遍历。缺陷就是如果生成的一个规则不准确，这个错误的规则会在库中逐渐增大，导致正确率逐渐降低。

接下来Snowball基于这个缺陷，进行了改进。

; 2 Snowball

2.1 Snowball介绍

snowball在2000年被提出，论文地址

提供了一种从文本文档生成模式和提取元组的新技术，此外，snowball还介绍了一种策略，用于评估在提取过程的每次迭代中生成的模式和元组的质量，只有那些被认为”足够可靠”的元组和模式才会被雪球保留，用于系统的后续迭代。

; 2.1 生成模式

定义规则:五元组构成（ L ，实体 1 ， M ，实体 2 ， R ） \color{red}（L，实体1，M，实体2，R）（L ，实体1 ，M ，实体2 ，R ），其中，LMR是向量。

tuple之间的匹配度定义：根据lmr三个向量来计算匹配度。

2.2 生成tuple

在生成模式之后，进一步发现新的tuple。给定文本与规则库中的每个规则计算相似度，相似度大于阈值的入tuple库。

计算上面提到的匹配度，大于阈值就入库，成为新的tuple，如下图。

然后，每个候选tuple都有许多帮助生成它的模式，每个模式都有相应的匹配程度。snowball使用这些信息以及关于模式选择性的信息来决定将哪些候选元组实际添加到它正在构建的表中。

; 2.3 评估模式

直观地说，模式和上下文之间的匹配程度越低，产生无效元组的可能性就越大，通过计算模式的置信度来决定该模式是否被选择，否则错误的模式产生更多错误的元组。

模式P的置信度计算公式为：

其中，P正是P的正匹配个数，P负是P的负匹配个数，由此计算P的置信度。

举例：对于模式P=< {} , ORGANIZATION ,

” Exxon, Irving, said”
” Intel, Santa Clara, cut prices”
“invest in Microsoft, New York-based analyst Jane Smith said”

如果，

以上置信度只是其中的一种，也可以采用其他的置信度计算方式。比如下面的：

我们在进行模式置信度评估中，没有考虑迭代之前的置信度，所以也可以通过权值来考虑之前该模式的置信度。

如果参数W

Original: https://blog.csdn.net/weixin_42327752/article/details/121401925
Author: Weiyaner
Title: 关系抽取——Snowball(半监督学习)总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548586/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【VC++】字符串详解&窗口&第一个windows程序

注：最后有面试&#…

人工智能 2023年6月28日
0071
图像质量评估指标：SNR、PSNR、MSE和SSIM

一般进行图像噪声的评估手段有四种，分别是：信噪比(Signal to Noise Ratio,SNR) 峰值信噪比(Peak Signal to Noise Ratio, PSN…

人工智能 2023年5月26日
0092
【自动驾驶】汽车速度规划介绍

《自动驾驶汽车决策与控制》书籍本篇博客主要摘抄自书上速度规划这一部分，仅用于学习，方便查阅。当局部路径规划给定了一条或者若干条选出的路径曲线之后, 运动规划模块需要解决的后续问…

人工智能 2023年6月25日
0044
实战1 – 空气质量数据的校准

1 题目简介题目来源于2019 高教社杯全国大学生数学建模竞赛D题——空气质量数据的校准。空气污染对生态环境和人类健康危害巨大，通过对”两尘四气”（PM2…

人工智能 2023年6月15日
0093
迁移学习之DenseNet121(121层）,DenseNet169(169层),DenseNet201(201层)（图像识别）

文章目录 * – 1.实现效果： – 2.结果分析： – 3.主文件TransorDenseNet.py: 1.实现效果：实际图片：（1）De…

人工智能 2023年5月26日
00100
Hough变换原理-直线检测

目录一、简介二、原理三、Python代码实现一、简介 Hough（霍夫）变换是图像处理中从图像中识别几何形状的基本方法之一。 Hough变换是将图像坐标空间变换到参数空间，…

人工智能 2023年6月17日
0066
Linux环境下Arm端源码编译OpenCV+ncnn目标检测模型实例运行调试完整实践记录

今天需要在嵌入式设备端运行C的程序，里面有依赖OpenCV的部分，这就需要编译安装好OpenCV才行，这个对于我来说还是比较陌生的，我很少用C，所以这里面也没少折腾，一路上遇上了很…

人工智能 2023年7月10日
0051
【论文总结】A Survey of Zero-Shot Learning: Settings, Methods, and Applications

论文地址：https://dl.acm.org/doi/abs/10.1145/3293318 一、Learning Settings 参数 Class-Inductive Ins…

人工智能 2023年6月6日
0069
论文笔记：AAAI 2020 InteractE: Improving Convolution-based Knowledge Graph Embeddings by Increasing

1. 前言论文链接：https://arxiv.org/pdf/1911.00219.pdfgithub：https://github.com/malllabiisc/Inter…

人工智能 2023年6月10日
0063
机器学习-随机森林(RandomForest)详解

1.什么是随机森林随机森林就是通过集成学习的思想将多棵树集成的一种算法，它的基本单元是决策树，而它的本质属于机器学习的一大分支——集成学习（Ensemble Learning）方…

人工智能 2023年6月15日
0084
一文通俗讲解元学习（Meta-Learning）

©PaperWeekly 原创 · 作者 |孙裕道学校 |北京邮电大学博士生研究方向 |GAN图像生成、情绪对抗样本生成元学习（meta-learning）是过去几年最火爆的…

人工智能 2023年6月23日
0053
图解机器学习算法(5) | 朴素贝叶斯算法详解（机器学习通关指南·完结）

作者：韩信子@ShowMeAI 教程地址：https://www.showmeai.tech/tutorials/34 本文地址：https://www.showmeai.tech…

人工智能 2023年6月15日
0050
XGB(有监督学习)和多维时序模型结合——预测风电出力

新能源风力发电机上保存有很多实时传感器的感应数据。解决的问题： 1，想要通过传感器数据预测未来一段时间出力功率。2，单XGB等有监督的机器学习模型，根据输入感应器数据预测出力功率…

人工智能 2023年7月27日
0043
Python数据分析第二周总结

Python数据分析第二周总结一、数据分析五大步骤 0.加载数据 read_csv read_excel read_sql 1.数据抽取布尔索引 query…

人工智能 2023年7月8日
0050
conda常用命令汇总

目录一、conda命令二、conda info 三、conda create 四、conda install 五、conda remove 六、conda list 七、con…

人工智能 2023年7月3日
00104
SPSS：主成分分析确定不同指标权重

主成分分析的原理是设法将原来变量重新组合成一组新的相互无关的几个综合变量，同时根据实际需要从中可以取出几个较少的总和变量尽可能多地反映原来变量的信息，也是数学上处理降维的一种统计学…

人工智能 2023年6月19日
0079

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

关系抽取——Snowball(半监督学习)总结

2.1 Snowball介绍

; 2.1 生成模式

2.2 生成tuple

; 2.3 评估模式

大家都在看