信息抽取的介绍

2023年5月31日上午3:07 • 人工智能 • 阅读 109

信息抽取（information extraction），即从自然语言文本中，抽取出特定的事件或事实信息，帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体（entity）、关系（relation）、事件（event）。例如从新闻中抽取时间、地点、关键人物，或者从技术文档中抽取产品名称、开发时间、性能指标等。

非结构化数据：诸如图片、文本、video、音频等数据，需要加以处理才能被模型训练。
抽取实体：人、地名、时间，比如医疗领域：蛋白质、疾病、药物等等。
抽取关系：位于、工作在、部分等。
指代消解：判断一个代词具体是指向哪个实体。

命名实体识别(NER)：识别文本中具有特定意义的实体。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等，但是之后出现的BILSTM-CRF效果要远好于之前的常用模型，并且成为目前基于深度学习的NER方法中的最主流模型。
NER评估方法：精确率/召回率，F1-score。

2-1、利用规则

1、利用一个制定好的规则
2、利用已经定义好的词典

2-2、投票模型

即统计每个单词的实体类型，记录针对于每个单词，概率最大的实体类型。

2-3、利用分类模型

非时序模型：逻辑回归、SVM
时序模型：HMM，CRF，LSTM-CRF

Original: https://blog.csdn.net/weixin_42475060/article/details/122987916
Author: ㄣ知冷煖★
Title: 信息抽取的介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548165/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【opencv】(11) 背景建模，帧差法、混合高斯模型，实战：行人检测，附python完整代码和数据集

各位同学好，今天和大家分享一下opencv背景建模相关操作。主要介绍两种背景建模方法，帧差法和混合高斯模型。案例简介：现有一份路口摄像机拍摄的行人流视频，通过背景建模方法，区分背…

人工智能 2023年7月20日
0039
跟数据打交道的人都得会的这8种数据模型，满足工作中95%的需求

“小王，你把这些用户数据分析下，分别打个价值标签给我，我们制定一下618的营销活动。” 这时候你拿着用户数据一脸懵？打标签？从哪几个维度？脑海里仿佛有很多想…

人工智能 2023年7月16日
0048
半监督学习算法中是否有适用于深度学习的方法

问题背景半监督学习是一种机器学习方法，其中使用有标签和无标签的数据来进行训练。在传统机器学习中，有很多半监督学习算法可以使用。然而，在深度学习中，由于高度非线性的特征表示和复杂的…

人工智能 2024年1月1日
0023
YOLOV5对自己的数据集进行训练从数据集建立到训练

YOLOV5对自己的数据集进行训练从数据集建立到训练前言 YOLO的准备工程 YOLOV5训练配置文件数据搬运 * coco.yaml文件配置修改model模型 train…

人工智能 2023年5月28日
0081
算法笔记（20）交叉验证及Python代码实现

常用交叉验证法包括K折叠交叉验证法(K-fold cross validation)、随机拆分交叉验证法(shuffle-split cross validation)、挨个儿试试…

人工智能 2023年7月1日
0071
线结构光传感器标定（相机标定+结构光标定）完整流程（一）

1、使用标定板采集图像20张。如下图所示： 2、在采集图像过程中，打开线激光条纹，采集两幅不同姿态下的图像如下图所示：3、成功采集两幅带结构光的图像以及20幅不带结构光的图像后，开…

人工智能 2023年6月2日
0088
Spark DataFrame 的创建和保存

前言 DataFrame是Spark中对带模式(schema)行列数据的抽象。DateFrame广泛应用于使用SQL处理大数据的各种场景。 DataFrame 创建法一、从不同…

人工智能 2023年7月8日
00104
R语言机器学习mlr3：特征选择和hyperband调参

获取更多R语言和生信知识，请关注公众号：医学和生信笔记。公众号后台回复 R语言，即可获得海量学习资料！ Hyperband调参 Hyperband调参可看做是一种特殊的随机搜索方式…

人工智能 2023年7月17日
0050
数据分析的重要性

— 总结自一个课程一．为什么数据分析重要在实际工作中无论是专业的数据分析岗位，还是运营、产品等岗位都开始关注从业者的数据分析能力，运营需要通过数据分析来解决流量、用户增长问题；产品…

人工智能 2023年7月16日
0046
Meta 开发 AI 语音助手，用于创建虚拟世界和实时翻译

编译 | 禾木木出品 | AI科技大本营（ID:rgznai100） Meta 在近日的「用人工智能构建元宇宙」的讨论会上，展示了最新的 AI 黑科技「Builder Bot」…

人工智能 2023年5月27日
00108
几个图像处理库整理：OpenCV、PIL(pillow)、skimage和GDAL库

主要是图像处理的几个库对数据的读取方式存在差异，有的时候经常搞混，没有概念，所以大致整理一下，一是增强印象，二是整理便于查阅。关于图像读取函数： 1、opencv库，python…

人工智能 2023年7月18日
0055
国科大图像处理作业二

国科大彭思龙等老师图像处理课程作业，此作业仅供参考，切勿完全抄袭，以免被老师为判定很低的分数问题 1 通过计算一维傅里叶变换实现图像二维快速傅里叶变换（10 分）实现一个函数 …

人工智能 2023年6月22日
0081
Java 包装类和Arrays类的介绍

包装类包装类其实就是8种基本数据类型对应的引用类型。基本数据类型引用数据类型byteByteshortShortintIntegerlongLongcharCharacterf…

人工智能 2023年7月29日
0060
Python大数据-电商产品评论情感数据分析

目录一、项目背景二、项目目标三、分析方法与分析过程四、数据清洗数据抓取评论去重分词停用词词云图绘制五、数据分析评论数据情感倾向分析匹配情感词修正情感倾向LDA模型进行主题分析寻找…

人工智能 2023年7月18日
0058
【多目标轨迹预测】HiVT: Hierarchical Vector Transformer for Multi-Agent Motion Prediction（CVPR2022,翻译+笔记）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月27日
0044
tf.image.decode_jpeg函数与tf.image.encode_jpeg函数用法

tf.image.decode_jpeg函数 tf.image.decode_jpeg函数tf.image.decode_jpeg(contents,channels=0,rati…

人工智能 2023年5月26日
0095

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

信息抽取的介绍

2-1、利用规则

2-2、投票模型

2-3、利用分类模型

大家都在看