学习笔记（9）——命名实体识别（NER）

2023年6月1日下午3:55 • 人工智能 • 阅读 136

1 概述
*
1 命名实体
2 命名实体识别
2 基于隐马尔可夫模型序列标注的命名实体识别
3 基于感知机序列标注的命名实体识别
4 基于条件随机场序列标注的命名实体识别
5 命名实体识别标准化评测
6 自定义领域命名实体识别
*
1.标注领域命名实体识别语料库
2.训练领域模型

1 概述

1 命名实体

文本中有一些描述实体的词汇。比如人名、地名、组织机构名、股票基金、医学术语等，称为命名实体。具有以下共性:

数量无穷。比如宇宙中的恒星命名、新生儿的命名不断出现新组合。
构词灵活。比如中国工商银行，既可以称为工商银行，也可以简称工行。
类别模糊。有一些地名本身就是机构名，比如”国家博物馆”。

2 命名实体识别

识别出句子中命名实体的边界与类别的任务称为命名实体识别。由于上述难点，命名实体识别也是一个统计为主、规则为辅的任务。

对于规则性较强的命名实体，比如网址、E-mail、IBSN、商品编号等，完全可以通过正则表达式处理，未匹配上的片段交给统计模型处理。

命名实体识别也可以转化为一个序列标注问题。具体做法是将命名实体识别附着到{B,M,E,S}标签，比如，构成地名的单词标注为”B/ME/S- 地名”，以此类推。对于那些命名实体边界之外的单词，则统一标注为0 ( Outside )。具体实施时，HanLP做了一个简化，即所有非复合词的命名实体都标注为S，不再附着类别。这样标注集更精简，模型更小巧。

命名实体识别实际上可以看作分词与词性标注任务的集成: 命名实体的边界可以通过{B,M,E,S}确定，其类别可以通过 B-nt 等附加类别的标签来确定。

HanLP内部提供了语料库转换工序，用户无需关心，只需要传入 PKU 格式的语料库路径即可。

2 基于隐马尔可夫模型序列标注的命名实体识别

隐马尔可夫模型的详细介绍见: 学习笔记（4）——序列标注与隐马尔可夫模型

隐马尔可夫模型命名实体识别代码见(自动下载 PKU 语料库): hmm_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/hmm_ner.py

运行代码后结果如下:

华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v 美国纽约/ns 现代/ntc 艺术/n 博物馆/n 参观/v

其中机构名”华北电力公司”、人名”谭旭光””胡花蕊”全部识别正确。但是地名”美国纽约现代艺术博物馆”则无法识别。有以下两个原因:

PKU 语料库中没有出现过这个样本。
隐马尔可夫模型无法利用词性特征。
对于第一个原因，只能额外标注一些语料。对于第二个原因可以通过切换到更强大的模型来解决。

3 基于感知机序列标注的命名实体识别

感知机模型介绍详见: 学习笔记（6）——感知机分类与序列标注

感知机模型词性标注代码见(自动下载 PKU 语料库): perceptron_ner.py

https://github.com/NLP-LOVE/Introduction-NLP/tree/master/code/ch08/perceptron_ner.py

运行过程会有些慢，结果如下:

华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v

与隐马尔可夫模型相比，已经能够正确识别地名了。

4 基于条件随机场序列标注的命名实体识别

条件随机场模型介绍详细见: 学习笔记（7）——条件随机场(CRF)与序列标注

条件随机场模型词性标注代码见(自动下载 PKU 语料库): crf_ner.py

https://github.com/NLP-LOVE/IntroductionNLP/tree/master/code/ch08/crf_ner.py

运行时间会比较长，结果如下:

华北电力公司/nt 董事长/n 谭旭光/nr 和/c 秘书/n 胡花蕊/nr 来到/v [美国纽约/ns 现代/ntc 艺术/n 博物馆/n]/ns 参观/v

得到了相同的结果。

5 命名实体识别标准化评测

各个命名实体识别模块的准确率如何，并非只能通过几个句子主观感受。任何监督学习任务都有一套标准化评测方案，对于命名实体识别，按照惯例引入P、R 和 F1评测指标。

在1998年1月《人民日报》语料库上的标准化评测结果如下:

值得一提的是，准确率与评测策略、特征模板、语料库规模息息相关。通常而言，当语料库较小时，应当使用简单的特征模板，以防止模型过拟合；当语料库较大时，则建议使用更多特征，以期更高的准确率。当特征模板固定时，往往是语料库越大，准确率越高。

; 6 自定义领域命名实体识别

以上我们接触的都是通用领域上的语料库，所含的命名实体仅限于人名、地名、机构名等。假设我们想要识别专门领域中的命名实体，这时，我们就要自定义领域的语料库了。

1.标注领域命名实体识别语料库

首先我们需要收集一些文本，作为标注语料库的原料，称为生语料。先找到文本中的识别目标，找到对应的生语料。在实际工程中，求由客户提出，则应当由该客户提供生语料。语料的量级越大越好，一般最低不少于数千个句子。

生语料准备就绪后，就可以开始标注了。对于命名实体识别语料库，若以词语和词性为特征的话，还需要标注分词边界和词性。不过我们不必从零开始标注，而可以在HanLP的标注基础上进行校正，这样工作量更小。

样本标注了数千个之后，生语料就被标注成了熟语料。

2.训练领域模型

选择上述三种算法或其他算法来进行模型训练，并评测识别效果。

Original: https://blog.csdn.net/strivequeen/article/details/110137328
Author: StriveQueen
Title: 学习笔记（9）——命名实体识别（NER）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/557618/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Jetsonnano安装pytorch、torchvision

方法一：可以去NVIDIA官网下载，那里有详细的教程下载地址 torch安装torchvision安装以及还有torch和torchvision的对应版本方法二：在按照官网的方法…

人工智能 2023年7月24日
0069
机器学习11种优化器推导过程详解(SGD,BGD,MBGD,Momentum,NAG,Adagrad,Adadelta,RMSprop,Adam,Nadma,Adamx)

前言在网上看了很多关于优化函数的讲解，基本都是从两本书完全照抄搬运到知乎和CSDN等各大技术论坛，而且搬运的过程中错误很多：一本是李沐的《动手学深度学习》，另一本是邱锡鹏的《神经…

人工智能 2023年7月12日
0067
流聚类算法之CluStream

CluStream 前言一、CluStream算法的切入点二、CluStream算法核心思想三、CluStream算法的两阶段 * 3.1 在线阶段 3.2 离线阶段 Clu…

人工智能 2023年6月2日
0082
【Matting】MODNet：实时人像抠图模型-onnx python部署

上一篇博客【Matting】MODNet：实时人像抠图模型-笔记分析了MODNet的原理，本篇博客将使用python部署MODNet官方提供的onnx模型，其效果如下：在线人像抠…

人工智能 2023年7月14日
0070
（萌新向很详细！）在Anaconda下安装Pytorch环境流程及问题总结

（萌新向很详细！）Anaconda下安装Pytorch环境流程及问题总结目录前言一、Anaconda是什么？Pytorch是什么？ Anaconda是什么？ Pytorch是…

人工智能 2023年7月27日
0060
《MATLAB 神经网络43个案例分析》：第3章遗传算法优化BP神经网络——非线性函数拟合

《MATLAB 神经网络43个案例分析》：第3章遗传算法优化BP神经网络——非线性函数拟合 1. 前言 2. MATLAB 仿真示例 3. 小结 ; 1. 前言《MATLAB …

人工智能 2023年7月12日
0069
arm64 虚拟地址物理地址转换

linux5.15 armv8-a arm文档 VMSA章节 D5.2.4 Memory translation granule size A VMSA provides a Me…

人工智能 2023年6月28日
0082
模式识别与图像处理课程实验一：图像处理实验(颜色算子实验、Susan、Harris角点检测实验、 sobel边缘算子检测实验)

模式识别与图像处理课程实验一：图像处理实验–>> 颜色算子实验、Susan、Harris角点检测实验、 sobel边缘算子检测实验一、实验内容二、颜…

人工智能 2023年6月17日
0090
python :高效率执行模型 ONNX基础使用笔记：神经网络导出与部署

导出模型(安装pytorch的环境可直接运行一下代码)： pytorch官方的例子(可以看到笔记中将 device设置为”cpu”，方便兼容读者进行测试)：…

人工智能 2023年7月14日
0054
R语言因子factor数据类型：使用factor函数将字符串向量转化为因子向量、使用ordered函数将字符串向量转化为有序的因子向量(ordinal categorical variable)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0090
利用python对TIF/TIFF或者其他图像的处理过程

此篇博客是针对TIF/TIFF图像小白的，但具有一些python基础的。 1.什么是TIF/TIFF图像？先说一下其他的图像格式;JPG/JPEG 是如今最常用的图片格式之一，其…

人工智能 2023年6月20日
0069
综述：计算机视觉中的通道注意力机制

综述：计算机视觉中的通道注意力机制 * – 1. INTRODUCTION: – 2. 计算机视觉中的注意力机制 – + 2.1. 通用形式 +…

人工智能 2023年6月26日
00160
tf1常用损失函数

tf.nn.sigmoid_cross_entropy_with_logits() 表示和sigmoid搭配使用的交叉熵tf.nn.softmax_cross_entropy_wi…

人工智能 2023年5月26日
00100
02关键信息提取

出自——火哥目录 1. Count Vector 1.1什么是count vector 1.2为什么要用count vector 1.3 实践count vector 1.3.1…

人工智能 2023年5月28日
0062
NeurIPS2022 | SegNeXt，重新思考卷积注意力设计

rTopDiv: null, cor rRightDiv: null, cor rBottomDiv: null, cor rLeftDiv: null, mapPosition:…

人工智能 2023年6月17日
0073
多视图聚类综述

多视图聚类方法分类：区分方法（基于相似性）的方法： MVC的目的是将N个主体分成K个类别，最终我们会得到一个成员矩阵H∈（N×K),它会指示哪一个主题是在同一个簇而其他主体是在其…

人工智能 2023年5月31日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

学习笔记（9）——命名实体识别（NER）

1 命名实体

2 命名实体识别

1.标注领域命名实体识别语料库

2.训练领域模型

大家都在看