信息抽取的介绍

信息抽取(information extraction),即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括实体(entity)、关系(relation)、事件(event)。例如从新闻中抽取时间、地点、关键人物,或者从技术文档中抽取产品名称、开发时间、性能指标等。

非结构化数据:诸如图片、文本、video、音频等数据,需要加以处理才能被模型训练。
抽取实体: 人、地名、时间,比如医疗领域:蛋白质、疾病、药物等等。
抽取关系:位于、工作在、部分等。
指代消解:判断一个代词具体是指向哪个实体。

命名实体识别(NER):识别文本中具有特定意义的实体。NER任务中的常用模型包括生成式模型HMM、判别式模型CRF等,但是之后出现的BILSTM-CRF效果要远好于之前的常用模型,并且成为目前基于深度学习的NER方法中的最主流模型。
NER评估方法:精确率/召回率,F1-score。

2-1、利用规则

1、利用一个制定好的规则
2、利用已经定义好的词典

2-2、投票模型

即统计每个单词的实体类型,记录针对于每个单词,概率最大的实体类型。

2-3、利用分类模型

非时序模型:逻辑回归、SVM
时序模型:HMM,CRF,LSTM-CRF

Original: https://blog.csdn.net/weixin_42475060/article/details/122987916
Author: ㄣ知冷煖★
Title: 信息抽取的介绍

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548165/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球