知识图谱构建流程及算法

知识图谱

1、实体抽取(命名实体识别)

1.1、实体抽取方法

1.2、 相关论文

2、关系抽取

2.1、 关系抽取分类

2.2、 关系抽取方法

2.3、相关论文

3、属性抽取

4、知识融合

  • *知识图谱的概念

知识图谱是对事实的一种结构化表示方法,由实体、关系和语义描述组成。知识图谱的数据结构以图形式存在,由实体(节点)和实体之间的关系(边)组成。本质上,它是一种表示实体间关系的语义网络,以”实体-关系-实体”的三元组来表达。

  • *知识图谱中数据语义的表达方式RDF

RDF( Resource Description Framework,资源描述框架)是一种资源描述语言。大部分知识图谱使用RDF描述世界上的各种资源,并以三元组的形式保存到知识库中。

RDF通过使用简单的二元关系模型来表示事物之间的关系,即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位,简称SPO ,三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。

  • *知识图谱构建流程

论文名称

发表日期

发表刊物

作者单位

基于 Neo4j 的《伤寒论》知识图谱构建研究

2021

计算机与数字工程

王菁薇

肖 莉

晏峻峰

湖南中医药大学信息科学与工程学院

湖南中医药大学中医学院

影评情感分析知识图谱构建研究

2020

计算机仿真

许智宏

于子琪

董永峰

闫文杰

河北工业大学人工智能与数据科学学院

河北省大数据计算重点实验室

基于企业知识图谱构建的实体关联查询系统

2020

计算机应用

敦 辉

万 鹏

王 社

湖北大学 计算机与信息工程学院

湖北省教育信息化工程技术中心

武汉城市职业学院

支持临床决策的医学知识图谱的构建与应用

2020

重庆医学

郑少宇

滕 飞

马 征

陈泽君

马 虹

吴 洁

西南交通大学信息科学与技术学院

四川省成都市第六人民医院

基于知识图谱的广西文化旅游问答系统研究与实现

2020

广西科学

何国对

黄容鑫

黄伟刚

李 航

覃 晓

元昌安

施 宇

廖兆琪

南宁师范大学计算机与信息工程学院

八桂学者创新团队实验室

广西科学院

中文医学知识图谱CMeKG 构建初探

2019

中文信息学报

奥德玛

杨云飞

穗志方

代达劢

常宝宝

李素建

昝红英

北京大学 计算语言学教育部重点实验室

鹏城实验室

郑州大学 信息工程学院

基于多特征实体消歧的中文知识图谱问答研究

2021

计算机工程

张鹏举

贾永辉

陈文亮

苏州大学 计算机科学与技术学院

基于大数据的软件项目知识图谱构造及问答方法

2021

大数据

邹艳珍

王 敏

谢 冰

林泽琦

北京大学信息科学技术学院

高可信软件技术教育部重点实验室(北京大学)

1、 实体抽取 (命名实体识别)

实体抽取是指在文本数据集中抽取自动识别出命名实体,是知识图谱中三元组构建的关键和最为基础的步骤。

规则来源:1、特定领域词典 2、句法词汇模版 3、正则表达式

当词汇表足够大时,基于规则的方法能够取得不错效果。但总结规则模板花费大量时间,且词汇表规模小,且实体识别结果普遍高精度。

在NER众多方法中,Bi-LSTM+CRF是使用深度学习的NER中最常见的架构。

论文 1中医命名实体抽取是将疾病、证候、症状等中医词汇从数据源中抽取出来。实体抽取方法:以《伤寒论》原文为研究对象,确定其中与疾病、证候、症状、处方、药物相关的主题词,如”太阳病””中风””脉浮””桂枝汤””桂枝”等。对采集的数据人工录入数据库中,要求对每一条数据标注所出自的《伤寒论》条文。

论文 5使用了基于BERT的命名实体识别模块。在分析基础上将文本中各个字或词的一维词向量作为输入,经过转换后,最终输出每个词的一维词向量表示,即使用BERT对每个词处理并得到最终的语义表示。对于询问句S,假设经过 BERT模型处理后,得到S的字符集合为(S1,S2,…,Sm),字符集合中的任意一个Si代表输入的字符i的词向量。

Trm会计算句子中所有词对当前输入词的贡献,再根据得到的信息对当前输入词 进 行 编 码,获得询问句词向量(S1,S2,…,Sm )。

采用MLP对词向量的类别进行预测,对获得的词向量(S1,S2,…,Sm)作全连接操作并进行多层感知机权重的调整。

论文 7该文章提出了要对不同类型的问题进行分类处理,即将问句划分为单跳和多跳问句。之后再进行实体链接操作,实体链接又分为主题实体识别和实体消歧。

实体识别模块可以采用序列标注模型和规则匹配结合的方法来进行。

序列标注模型分为BIO和BIOES两种,其中B 开始位置、I 中间位置、E表示结束为止、O 其他类别、S 单字表示一个实体。

例如:

其中在实体抽取的过程中,根据数据集的不同还应当考虑是否进行去除停用词操作。

论文 2数据为python爬虫对网络抓取的结果,针对的是对电影影评的构造分析。由于产生评论的主体为广大网民,评论数据口语化、地区话、随意化,并常带有 emoji 等表情符号,为后续的情感分析带来一定困难。对影评非结构化信息进行过滤,删除空字符串以及无意义的评论信息,过滤评论中的表情和其它特殊字符,对评论信息进行繁化简操作,去停用词等数据清洗工作。

2、 关系抽取

关系抽取是指从无结构的文本中抽取实体以及实体之间的关系。一般关系抽取产生的结果为三元组

除了从文本中或半结构化数据中抽取关系,获取关系实例的方法还可以有:人工输入、众包构建:通过众包平台将关系抽取的任务分发给众包工人、从结构化数据库转换而来、自动构建:自动从文本中抽取

将自然语言视为字符序列,构造字符模式,实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式,随后与输入文本进行匹配,即可完成关系抽取。

作品-作者

“《$arg1》”,是现代文学家$arg2的散文集”

“《朝花夕拾》,是现代文学家鲁迅的散文集”

作品-原名

“《$arg1》原名《$arg2》”

“《朝花夕拾》原名《旧事重提 》”

用于抽取有着固定的描述模式的内容

机器学习和深度学习的方法

构造特征:

1)词特征:实体1与实体2之间的词、前后的词,词向量可以用Bag-of-Words结合Bigrams等。

2)实体标签特征:实体的标签。

3)依存句法特征:分析句子的依存句法结构,构造特征。(依赖于NLP工具库,比如HanLP但会带来一定的误差)

端到端的深度学习方法:可使用CNN或BI-LSTM作为句子编码器,把一个句子的词嵌入(Word Embedding)作为输入,用CNN或LSTM做特征的抽取器,最后经过softmax层得到N种关系的概率。相比上述方法省略了特征构造这一步,可避免在特征构造时产生的误差。

半监督学习的算法主要有两种:Bootstrapping和Distant Supervision。

Bootstrapping的算法理念是根据拥有一定关系的少量实体对进行学习,输出更多具有该关系的更多实体对。但是可能会造成语义漂移。

论文 1 在构建知识图谱的过程中,依据《伤寒论》的解读,定义了三类实体关系:上下位关系、治愈关系以及整体与部分关系。

论文 3 根据企业的外贸出口、所在地区以及企业类型三种关联关系作为关系发掘的条件。首先设定过滤阈值,若待查询企业计算出的关系关联度大于该阈值,则将该企业作为备选结果集中的一个。

关系发掘的计算方法:

将目标企业节点记为q,待查询企业节点记为 g,计算权重表示为 wi,两个节点所对应的关系集合记为 Rq和 Rg,其中集合中所对应的外贸出口、所在地区以及企业类型三个关联关系分别为 Rq1、Rq2、Rq3和Rg1、Rq2、Rq3。则两节点的关联相似度得分可表示为

论文5 首先构建广西民族文化知识图谱关系词组集WRS;然后调用分词函数split(),获取询问句分词向量W;最后,在关系词组集中对问句分词向量进行匹配检索,如果检索成功,则问句关系即可判定为匹配关系。

论文 9:

论文 12 以海量婚姻法相关知识为数据基础,以浅层语义模型为计算工具,得出具有层级关系的词集。其层级关系主要依据以高维空间语言模型计算出的词向量。根据词向量的高维空间分布,可以得出某一词向量的相近词集,并根据空间距离对联想进行分级,从而建立起与该词相关的语义实时扩展联想。

Original: https://blog.csdn.net/LuckyChenH/article/details/115318587
Author: LuckyChenH
Title: 知识图谱构建流程及算法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/548431/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球