实体识别(命名实体识别):
一、概念
1.实体:指客观存在、并可相互区别的事物,实体可以是具体的人、事、物,也可以是概念。
2.命名实体:以名称为标识的实体。即我们听到一个名字,就能知道这个东西是哪个具体的事物。
命名实体识别主要分类:
- 3 大类(实体类、时间类和数字类)
- 7 小类(人名、地名、组织名、机构名、时间、日期、货币和百分比)
但随着 NLP 任务的不断扩充,在特定领域中会出现特定的类别。
- 比如医药领域中,药名、疾病等类别。
- 实体类型是根据需求人为定义的,这种定义可以是有层次的。例如,产品类是一个大类,下面可能会包含手机类、电脑类、照相机类等等。这种定义就是本体建模。
- 本体是从schema的角度来定义(自上向下),而知识图谱则是从数据层(自底向上)来构建。对于领域或垂直行业的知识图谱,一般都需要有本体层。而实体可以定义为本体的某个概念的实例。有点像是类和对象的概念。
二、NER实体词典的获取与使用(新词挖掘)
现有的新词挖掘技术:
- 无监督学习:无监督学习通过频繁序列产生候选集,并通过计算紧密度和自由度指标进行筛选,这种万法虽然可以产生充分的候选集合,但仅通过特征阈值过滤无法有效地平衡精确率与召回率,现实应用中通常挑选较高的阈值保证精度而牺牲召回。
- 有监督学习:先进的新词挖掘算法大多为有监督学习,这类算法通常涉及复杂的语法分析模型或深度网络模型,且依赖领域专家设计繁多规则或大量的人标记数据。
- 远程进度学习:远程监督学习通过开源知识库生成少量的标记数据,虽然一定程度上缓解了人力标注成本高的问题。然而小样本量的标记数据仅能学习简单的统计模型,无法训练具有高泛化能力的复杂模型。
三、识别方法
实际工作中往往不是直接训练某个NER模型,而是要先根据当前NER任务的特点进行技术选型,通常NER的识别技术为:
先介绍命名实体的发展历程:
1.早期:基于规则的方法、基于字典的方法
2.传统机器学习的方法:HMM(隐马尔可夫模型)、MEMM、条件随机场(CRF)
3.深度学习方法:BILSTM-CRF
4.近期流行:注意力机制、迁移学习(Bert等)、半监督学习
- 规则抽取:有些实体具有很强的模板(规则)性质,所以可以通过人工简单的配置一些模板规则就可以获得高准确率的实体抽取结果。例如结构化/半结构化数据中的实体抽取、利用某些特殊符号如书名号等等。
- 实体词典匹配:实体词典是一种常用的资源,可以通过离线挖掘不断拓展。不断增加的新实体对实现高准确率、高覆盖率的NER带来了很大挑战,通过实体词典匹配的方法可以有效解决这一问题。基于词典匹配的方法对新业务的拓展能力也强。而且词典匹配速度快,基本不存在性能问题。
- 模型预测:词典无法完全涵盖表述复杂、非标准化表达的实体,而模型预测具备泛化能力,可作为词典匹配的有效补充。另外,某些领域的实体可能具备歧义性问题,这包括边界歧义性和类型歧义性。
【参考CSDN博主「一鸣鸣」的原创文章】
Original: https://blog.csdn.net/qq_44790051/article/details/123996507
Author: self-discipline
Title: 实体识别(一)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/527865/
转载文章受原作者版权保护。转载请注明原作者出处!