知识抽取实现方案——实体抽取

2023年6月1日上午4:35 • 人工智能 • 阅读 92

参考地址：知识抽取-实体及关系抽取 – 知乎

摘要：

知识抽取涉及的”知识”通常是清楚的、事实性的信息，这些信息来自不同的来源和结构，而对不同数据源进行的知识抽取的方法各有不同，从结构化数据中获取知识用D2R，其难点在于复杂表数据的处理，包括嵌套表、多列、外键关联等。从链接数据中获取知识用图映射，难点在于数据对齐，从半结构化数据中获取知识用包装器，难点在于wrapper的自动生成、更新和维护，这一篇主要讲从文本中获取知识，也就是广义上说的信息抽取。

信息抽取三个最重要/最受关注的子任务：

实体抽取：也就是命名实体识别，包括实体的检测（find）和分类（classify）

关系抽取：通常我们说的 三元组（triple）抽取，一个谓词（predicate）带2个形参（argument）,如 Founding-location（IBM，NewYork）

事件抽取：相当于一种多元关系的抽取

实体抽取：

实体抽取或者说命名实体识别（NER）在信息抽取中扮演着重要角色，主要抽取的是文本中的原子信息元素，如 人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词： find & classify，找到命名实体，并进行分类。

【蓝色为人名（Person），紫色为时间（Date），红色为机构（Organization）】

标准实现流程（用机器学习方法）

Training：

收集代表性的训练文档
为每个token标记命名实体（不属于任何实体就标 Others O）
设计适合该文本和类别的特征提取方法
训练一个 sequence classifier 来预测数据的label

Testing：

收集测试文档
运行sequence classifier给每个token做标记
输出命名实体

编码方式

看一下最常用的两种sequence labeling的编码方式，IO encoding简单的为每个token标注，如果不是NE就标为O（other），所以一共需要C+1个类别（label）。而IOB encoding需要2C+1个类别（label），因为它标了 NE boundary，B 代表 begining，NE 开始的位置，I 代表 continue，承接上一个 NE，如果连续出现两个 B，自然就表示上一个 B 已经结束了。

在 Stanford NER 里，用的其实是 IO encoding，有两个原因，一是 IO encoding 运行速度更快，二是在实践中，两种编码方式的效果差不多。IO encoding 确定 boundary 的依据是，如果有连续的 token 类别不为 O，那么类别相同，同属一个 NE；类别不相同，就分割，相同的 sequence 属同一个 NE。而实际上，两个 NE 是相同类别这样的现象出现的很少，如上面的例子，Sue，Mengqiu Huang 两个同是 PER 类别，并不多见，更重要的是，在实践中，虽然 IOB encoding 能规定 boundary，而实际上它也很少能做对，它也会把 Sue Mengqiu Huang 分为同一个 PER，这主要是因为更多的类别会带来数据的稀疏。

深度学习方法

1、LSTM+CRF

最经典的 LSTM+CRF，端到端的判别式模型，LSTM 利用过去的输入特征，CRF 利用句子级的标注信息，可以有效地使用过去和未来的标注来预测当前的标注。

2、ELECTRA + CRF

详见笔者同事的博客：ELECTRA + CRF 实现中文命名实体识别_huangcy的博客-CSDN博客

3、BERT + CRF

笔者项目中最终采用的方案。哈哈，遇事不决用Bert。事实上是我们团队比对了在同一份数据集上， 用 Bert 的表现还是要比用 ELECTRA 好一点点。

评价指标

评估 IR 系统或者文本分类的任务，我们通常会用到 precision，recall，F1 这种 set-based metrics，但是在这里对 NER 这种 sequence 类型任务的评估，如果用这些 metrics，可能出现 boundary error 之类的问题。因为 NER 的评估是按每个 entity 而不是每个 token 来计算的，我们需要看 entity 的 boundary。

以下面一句话为例:

First Bank of Chicago announced earnings...

正确的 NE 应该是 First Bank of Chicago，类别是 ORG，然而系统识别了 Bank of Chicago，类别 ORG，也就是说，右边界(right boundary)是对的，但是左边界(left boundary)是错误的，这其实是一个常见的错误。

&#x6B63;&#x786E;&#x7684;&#x6807;&#x6CE8;&#xFF1A;
ORG - (1,4)

&#x7CFB;&#x7EDF;&#xFF1A;
ORG - (2,4)

而计算 precision，recall 的时候，我们会发现，对 ORG – (1,4) 而言，系统产生了一个 false negative，对 ORG – (2,4) 而言，系统产生了一个 false positive！所以系统有了 2 个错误。 F1 measure 对 precision，recall 进行加权平均，结果会更好一些，所以经常用来作为 NER 任务的评估手段。另外，专家提出了别的建议，比如说给出 partial credit，如 MUC scorer metric，然而，对哪种 case 给多少的 credit，也需要精心设计。

实体链接

实体识别完成之后还需要进行归一化，比如万达集团、大连万达集团、万达集团有限公司这些实体其实是可以融合的。

主要步骤如下：

1、 实体识别

命名实体识别，词典匹配

2、 候选实体生成

表层名字扩展，搜索引擎，查询实体引用表

3、 候选实体消歧

图方法，概率生成模型，主题模型，深度学习

*补充一些开源系统：

Original: https://blog.csdn.net/chenxy02/article/details/121680973
Author: chenxy02
Title: 知识抽取实现方案——实体抽取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/554793/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【文献阅读】StyleBERT: Chinese pretraining by font style information

Abstract 因此在本文中，我们提出了中文预训练语言模型 StyleBERT，它结合了以下嵌入信息来增强语言模型的 savvy，例如单词、拼音、五笔和chaizi（拆字）。 I…

人工智能 2023年5月31日
0063
DFRobot语音识别模块推荐-Gravity: I2C离线中文语音识别模块

本文首发于创客社区，作者:Jeff2 原文链接:http://mc. .com.cn/thread-289776-1-1.html 项目背景之前和朋友做AI训练街霸游戏，想加入…

人工智能 2023年5月25日
00109
【浅谈python爬虫1】基于正则表达式的基础爬虫——爬取排行榜榜单内容

大家好，我是好学的小师弟。今天来和大家分享下，我近期工作的一个学习心得——爬虫。虽然之前也有过爬虫的学习，但是那基本上都是基于图片的爬取。这次学习心得，算是一个小小的提升吧。主要…

人工智能 2023年7月18日
0062
安装TensorFlow_gpu后仍然不能使用GPU

GitHub上找到的案例一般会说明环境依赖，最好新建环境，按照说明搭建环境，不要用自己原来的环境乱改。（比如发现自己原来环境的TensorFlow根本就不是GPU版本）这将安装一…

人工智能 2023年5月23日
0090
【opencv-c++】cv::ximgproc::thinning图像细化算法

【opencv-c++】cv::ximgproc::thinning图像细化算法 1、背景 2、示例 3、说明 ; 1、背景 cv::ximgproc::thinning函数官方文…

人工智能 2023年7月20日
00119
Opencv-Python数据增强

Opencv-Python数据增强常见的数据增强操作有：按比例放大或缩小图片、旋转、平移、水平翻转、改变图像通道等。 1.按比例放大和缩小扩展缩放只是改变图像的尺寸大小。O…

人工智能 2023年7月19日
0064
5分钟 NLP系列 — SentenceTransformers 库介绍

SentenceTransformers 是一个可以用于句子、文本和图像嵌入的Python库。可以为 100 多种语言计算文本的嵌入并且可以轻松地将它们用于语义文本相似性、语义搜…

人工智能 2023年7月22日
00171
快速解决“多分类不平衡”问题

在机器学习中，经常会遇到分类不平衡问题。简单来说，就是多分类时有的类别数量少，会影响整体模型的准确率。目录前言一、问题详细描述 1.项目介绍 2.调参尝试二、分析原因 1….

人工智能 2023年6月15日
0068
随机森林实战（分类任务+特征重要性+回归任务）（含Python代码详解）

1. 随机森林-分类任务我们使用随机森林完成鸢尾花分类任务：第一步，导入我们可能需要的包： from sklearn.datasets import load_iris fro…

人工智能 2023年6月30日
0082
【MySQL】数据库机房架构与跨城容灾详解(实战篇)（MySQL专栏启动）

📫作者简介：小明java问道之路，专注于研究 Java/ Liunx内核/ C++及汇编/计算机底层原理/源码，就职于大型金融公司后端高级工程师，擅长交易领域的高安全/可用/并发…

人工智能 2023年7月30日
0068
stream的anyMatch、allMatch、noneMatch的坑点

正常逻辑是这样anyMatch：流中有任意一个元素匹配上结果为true，都不匹配则为falseallMatch：流中所有元素都匹配结果为true，否则如果有一个不匹配就为false…

人工智能 2023年6月28日
0087
【OpenCV】“帧差法”实现移动物体的检测（车辆识别）

目录一、帧差法 1、概念 2、为什么帧差法可以检测运动的物体？二、使用OpenCV配合帧差法实现车辆识别 1、加载视频 2、灰度处理+帧差计算 3、二值化 4、腐蚀 5、膨胀 …

人工智能 2023年7月19日
0047
目标检测：较新算法（算法介绍与开源代码）（2022.3.8）

一、目标检测 2.yolo7(with transformer) 3.YoloS（with Transformer） Focal Loss升级：让Focal Loss动态化，类别极…

人工智能 2023年7月12日
0058
SSD训练数据集流程（学习记录）

关于理论部分我看的是b站”霹雳吧啦Wz”的SSD理论讲解，作为入门小白表示能听懂，需要的同学可以自行观看目录 1.训练环境 2.训练步骤 1.训练环境我…

人工智能 2023年7月26日
00159
数据分析-入门-线性回归-波士顿房价

@线性回归-波士顿房价数据来源：https://www.kaggle.com/altavish/boston-housing-dataset 波士顿房价数据集特征（X）包含：CR…

人工智能 2023年6月17日
0088
DataFrame

`python;gutter:true;Init signature: pd.DataFrame(data=None, index=None, columns=None, dtyp…

人工智能 2023年6月2日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识抽取实现方案——实体抽取

摘要：

实体抽取：

标准实现流程（用机器学习方法）

编码方式

深度学习方法

评价指标

实体链接

大家都在看