实体识别（一）

2023年5月27日下午10:14 • 人工智能 • 阅读 85

实体识别（命名实体识别）：

一、概念

1.实体：指客观存在、并可相互区别的事物，实体可以是具体的人、事、物，也可以是概念。

2.命名实体：以名称为标识的实体。即我们听到一个名字，就能知道这个东西是哪个具体的事物。

命名实体识别主要分类：

3 大类（实体类、时间类和数字类）
7 小类（人名、地名、组织名、机构名、时间、日期、货币和百分比）

但随着 NLP 任务的不断扩充，在特定领域中会出现特定的类别。

比如医药领域中，药名、疾病等类别。
实体类型是根据需求人为定义的，这种定义可以是有层次的。例如，产品类是一个大类，下面可能会包含手机类、电脑类、照相机类等等。这种定义就是本体建模。
本体是从schema的角度来定义（自上向下），而知识图谱则是从数据层（自底向上）来构建。对于领域或垂直行业的知识图谱，一般都需要有本体层。而实体可以定义为本体的某个概念的实例。有点像是类和对象的概念。

二、NER实体词典的获取与使用（新词挖掘）

现有的新词挖掘技术：

无监督学习：无监督学习通过频繁序列产生候选集，并通过计算紧密度和自由度指标进行筛选，这种万法虽然可以产生充分的候选集合，但仅通过特征阈值过滤无法有效地平衡精确率与召回率，现实应用中通常挑选较高的阈值保证精度而牺牲召回。
有监督学习：先进的新词挖掘算法大多为有监督学习，这类算法通常涉及复杂的语法分析模型或深度网络模型，且依赖领域专家设计繁多规则或大量的人标记数据。
远程进度学习：远程监督学习通过开源知识库生成少量的标记数据，虽然一定程度上缓解了人力标注成本高的问题。然而小样本量的标记数据仅能学习简单的统计模型，无法训练具有高泛化能力的复杂模型。

三、识别方法

实际工作中往往不是直接训练某个NER模型，而是要先根据当前NER任务的特点进行技术选型，通常NER的识别技术为：

先介绍命名实体的发展历程：

1.早期：基于规则的方法、基于字典的方法

2.传统机器学习的方法：HMM(隐马尔可夫模型)、MEMM、条件随机场（CRF）

3.深度学习方法：BILSTM-CRF

4.近期流行：注意力机制、迁移学习（Bert等）、半监督学习

规则抽取：有些实体具有很强的模板（规则）性质，所以可以通过人工简单的配置一些模板规则就可以获得高准确率的实体抽取结果。例如结构化/半结构化数据中的实体抽取、利用某些特殊符号如书名号等等。
实体词典匹配：实体词典是一种常用的资源，可以通过离线挖掘不断拓展。不断增加的新实体对实现高准确率、高覆盖率的NER带来了很大挑战，通过实体词典匹配的方法可以有效解决这一问题。基于词典匹配的方法对新业务的拓展能力也强。而且词典匹配速度快，基本不存在性能问题。
模型预测：词典无法完全涵盖表述复杂、非标准化表达的实体，而模型预测具备泛化能力，可作为词典匹配的有效补充。另外，某些领域的实体可能具备歧义性问题，这包括边界歧义性和类型歧义性。

【参考CSDN博主「一鸣鸣」的原创文章】

Original: https://blog.csdn.net/qq_44790051/article/details/123996507
Author: self-discipline
Title: 实体识别（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/527865/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

《码出高效：Java 开发手册》技术笔记

前言《java开发手册》这本书是一本由阿里巴巴公司的开发工程师们编写的技术书籍，相比于其他编程书籍，本书更为贴近一些共通的知识而非实际的代码，对开发工程师的综合素质有显著的提升，…

人工智能 2023年6月30日
0085
各种神经网络的应用领域,神经网络还有哪些应用

神经网络原理及应用神经网络原理及应用1.什么是神经网络？神经网络是一种模拟动物神经网络行为特征，进行分布式并行信息处理的算法。这种网络依靠系统的复杂程度，通过调整内部大量节点之…

人工智能 2023年6月25日
00104
#40 AI-001-火爆全网的聊天机器人ChatGPT能做什么

0、前言 11月30日，OpenAI推出了一个名为ChatGPT的AI聊天机器人，可以供公众免费测试，短短几天就火爆全网。从头条、公众号上多个宣传来看，它既能写代码、查BUG…

人工智能 2023年7月31日
0062
MMDetection实战：MMDetection训练与测试

文章目录摘要配置文件参数详解环境准备训练 * 制作数据集修改配置文件修改数据集的类别开始训练测试完整代码和数据集：摘要 MMDetection是商汤和港中文大学…

人工智能 2023年6月16日
00109
2022电子设计竞赛自主不成熟设计

基于2022测控题目的方案题目： 2022年TI杯大学生电子设计竞赛声源定位跟踪系统（ E 题）一、任务设计制作一个声源定位跟踪系统，能够实时显示及指示声源的位置，当声源移…

人工智能 2023年6月24日
00123
Python连接MySQL数据库

Python语言是一种流行的开源编程语言，不仅表达能力强，提供了高效的数据结构，还能简单有效地面向对象编程。我们使用Python进行web开发、网络爬虫、数据挖掘、人工智能等研究时…

人工智能 2023年7月6日
0084
【Educoder作业】问题求解——数值表示

这节课的讲的原码补码，代码实现倒是次要的，主要是理解为什么会有补码这种东西，为什么通过补码进行加法可以代替减法这个代码实现的巧妙在于用a b s abs a b s和e v a …

人工智能 2023年7月4日
00102
Python自动化办公：openpyxl绘制图表

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。之前给大家分享了openpyxl的基础和进阶教程： ** 。今天来给大家分享openpyxl的最后一个…

人工智能 2023年7月15日
0068
InfoGAN详细介绍及特征解耦图像生成

InfoGAN详细介绍及特征解耦图像生成一.InfoGAN框架理解 * 特征耦合 InfoGAN InfoGAN论文实验结果二.VAE-GAN框架理解 * VAE-GAN算法步…

人工智能 2023年7月13日
0090
神经网络原理&一个简单的神经网络模型搭建

神经网络基本原理文章目录神经网络基本原理前言一、神经网络是什么？ * 1.1 神经网络的分类 1.2 神经网络结构图 1.3 神经元 1.4 为什么神经网络能预测？二、 …

人工智能 2023年7月2日
00119
22中山大学人工智能学院上岸经验分享帖

文章目录前言 * 考研成绩个人情况核心问题 * 1.为什么要考研 2.考不上的话怎么办 3.怎么选学校备考建议 * 备考过程建议数学 – 数学建议第一轮：3…

人工智能 2023年7月27日
0071
【css 动画】css实现奔跑的北极熊

📋 个人简介 💖 作者简介：大家好，我是阿牛，全栈领域优质创作者😜 📝 个人主页：馆主阿牛🔥 🎉 支持我：点赞👍+收藏⭐️+留言📝 📣 系列专栏：前端实用小demo🍁 💬格言：迄今…

人工智能 2023年6月20日
0087
【C++初阶】C++内存管理

文章目录一.C/C++内存分布图二.new和delete内存管理 * – 1.对于内置类型 2.对于自定义类型(重点) 3.new和delete不匹配问题(了解) …

人工智能 2023年6月30日
0092
[Python从零到壹] 三十七.图像处理基础篇之图像融合处理和ROI区域绘制

欢迎大家来到”Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合…

人工智能 2023年6月18日
0062
Redis数据库相关指令大合集

14天学习训练营导师课程：郑为中《Vue和SpringBoot打造假日旅社管理系统》努力是为了不平庸~ 学习有些时候是枯燥的，但收获的快乐是加倍的，欢迎记录下你的那些努力时刻（…

人工智能 2023年7月30日
0080
DL 模型组件之残差模块

文章目录 * – 常规残差模块 – Bottleneck（瓶颈残差模块） – 参考阅读 ResNet 的论文Deep Residual Lea…

人工智能 2023年7月14日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

实体识别（一）

大家都在看