知识图谱构建流程及算法

2023年5月31日上午3:48 • 人工智能 • 阅读 108

*知识图谱的概念

知识图谱是对事实的一种结构化表示方法，由实体、关系和语义描述组成。知识图谱的数据结构以图形式存在，由实体(节点)和实体之间的关系(边)组成。本质上，它是一种表示实体间关系的语义网络，以”实体-关系-实体”的三元组来表达。

*知识图谱中数据语义的表达方式RDF

RDF（ Resource Description Framework，资源描述框架）是一种资源描述语言。大部分知识图谱使用RDF描述世界上的各种资源，并以三元组的形式保存到知识库中。

RDF通过使用简单的二元关系模型来表示事物之间的关系，即使用三元组集合的方式来描述事物和关系。三元组是知识图谱中知识表示的基本单位，简称SPO ，三元组被用来表示实体与实体之间的关系,或者实体的某个属性的属性值是什么。

*知识图谱构建流程

论文名称

发表日期

发表刊物

作者单位

基于 Neo4j 的《伤寒论》知识图谱构建研究

2021

计算机与数字工程

王菁薇

肖莉

晏峻峰

湖南中医药大学信息科学与工程学院

湖南中医药大学中医学院

影评情感分析知识图谱构建研究

2020

计算机仿真

许智宏

于子琪

董永峰

闫文杰

河北工业大学人工智能与数据科学学院

河北省大数据计算重点实验室

基于企业知识图谱构建的实体关联查询系统

2020

计算机应用

敦辉

万鹏

王社

湖北大学计算机与信息工程学院

湖北省教育信息化工程技术中心

武汉城市职业学院

支持临床决策的医学知识图谱的构建与应用

2020

重庆医学

郑少宇

滕飞

马征

陈泽君

马虹

吴洁

西南交通大学信息科学与技术学院

四川省成都市第六人民医院

基于知识图谱的广西文化旅游问答系统研究与实现

2020

广西科学

何国对

黄容鑫

黄伟刚

李航

覃晓

元昌安

施宇

廖兆琪

南宁师范大学计算机与信息工程学院

八桂学者创新团队实验室

广西科学院

中文医学知识图谱CMeKG 构建初探

2019

中文信息学报

奥德玛

杨云飞

穗志方

代达劢

常宝宝

李素建

昝红英

北京大学计算语言学教育部重点实验室

鹏城实验室

郑州大学信息工程学院

基于多特征实体消歧的中文知识图谱问答研究

2021

计算机工程

张鹏举

贾永辉

陈文亮

苏州大学计算机科学与技术学院

基于大数据的软件项目知识图谱构造及问答方法

2021

大数据

邹艳珍

王敏

谢冰

林泽琦

北京大学信息科学技术学院

高可信软件技术教育部重点实验室（北京大学）

1、实体抽取 (命名实体识别)

实体抽取是指在文本数据集中抽取自动识别出命名实体，是知识图谱中三元组构建的关键和最为基础的步骤。

规则来源：1、特定领域词典 2、句法词汇模版 3、正则表达式

当词汇表足够大时，基于规则的方法能够取得不错效果。但总结规则模板花费大量时间，且词汇表规模小，且实体识别结果普遍高精度。

在NER众多方法中，Bi-LSTM+CRF是使用深度学习的NER中最常见的架构。

论文 1中医命名实体抽取是将疾病、证候、症状等中医词汇从数据源中抽取出来。实体抽取方法：以《伤寒论》原文为研究对象，确定其中与疾病、证候、症状、处方、药物相关的主题词，如”太阳病””中风””脉浮””桂枝汤””桂枝”等。对采集的数据人工录入数据库中，要求对每一条数据标注所出自的《伤寒论》条文。

论文 5使用了基于BERT的命名实体识别模块。在分析基础上将文本中各个字或词的一维词向量作为输入，经过转换后，最终输出每个词的一维词向量表示，即使用BERT对每个词处理并得到最终的语义表示。对于询问句Ｓ，假设经过 BERT模型处理后，得到S的字符集合为（Ｓ１，Ｓ２，…，Ｓｍ），字符集合中的任意一个Si代表输入的字符i的词向量。

Trm会计算句子中所有词对当前输入词的贡献，再根据得到的信息对当前输入词进行编码，获得询问句词向量（Ｓ１，Ｓ２，…，Ｓｍ）。

采用MLP对词向量的类别进行预测，对获得的词向量（Ｓ１，Ｓ２，…，Ｓｍ）作全连接操作并进行多层感知机权重的调整。

论文 7该文章提出了要对不同类型的问题进行分类处理，即将问句划分为单跳和多跳问句。之后再进行实体链接操作，实体链接又分为主题实体识别和实体消歧。

实体识别模块可以采用序列标注模型和规则匹配结合的方法来进行。

序列标注模型分为BIO和BIOES两种，其中B 开始位置、I 中间位置、E表示结束为止、O 其他类别、S 单字表示一个实体。

例如：

其中在实体抽取的过程中，根据数据集的不同还应当考虑是否进行去除停用词操作。

论文 2数据为python爬虫对网络抓取的结果，针对的是对电影影评的构造分析。由于产生评论的主体为广大网民，评论数据口语化、地区话、随意化，并常带有 emoji 等表情符号，为后续的情感分析带来一定困难。对影评非结构化信息进行过滤，删除空字符串以及无意义的评论信息，过滤评论中的表情和其它特殊字符，对评论信息进行繁化简操作，去停用词等数据清洗工作。

2、关系抽取

关系抽取是指从无结构的文本中抽取实体以及实体之间的关系。一般关系抽取产生的结果为三元组

除了从文本中或半结构化数据中抽取关系，获取关系实例的方法还可以有：人工输入、众包构建：通过众包平台将关系抽取的任务分发给众包工人、从结构化数据库转换而来、自动构建：自动从文本中抽取

将自然语言视为字符序列，构造字符模式，实现抽取。表达特定关系的字符模式通常被表示为一组正则表达式，随后与输入文本进行匹配，即可完成关系抽取。

作品-作者

“《$arg1》”,是现代文学家$arg2的散文集”

“《朝花夕拾》，是现代文学家鲁迅的散文集”

作品-原名

“《$arg1》原名《$arg2》”

“《朝花夕拾》原名《旧事重提》”

用于抽取有着固定的描述模式的内容

机器学习和深度学习的方法

构造特征：

1）词特征：实体1与实体2之间的词、前后的词，词向量可以用Bag-of-Words结合Bigrams等。

2）实体标签特征：实体的标签。

3）依存句法特征：分析句子的依存句法结构，构造特征。（依赖于NLP工具库，比如HanLP但会带来一定的误差）

端到端的深度学习方法：可使用CNN或BI-LSTM作为句子编码器，把一个句子的词嵌入（Word Embedding）作为输入，用CNN或LSTM做特征的抽取器，最后经过softmax层得到N种关系的概率。相比上述方法省略了特征构造这一步，可避免在特征构造时产生的误差。

半监督学习的算法主要有两种：Bootstrapping和Distant Supervision。

Bootstrapping的算法理念是根据拥有一定关系的少量实体对进行学习，输出更多具有该关系的更多实体对。但是可能会造成语义漂移。

论文 1 在构建知识图谱的过程中，依据《伤寒论》的解读，定义了三类实体关系：上下位关系、治愈关系以及整体与部分关系。

论文 3 根据企业的外贸出口、所在地区以及企业类型三种关联关系作为关系发掘的条件。首先设定过滤阈值，若待查询企业计算出的关系关联度大于该阈值，则将该企业作为备选结果集中的一个。

关系发掘的计算方法：

将目标企业节点记为q，待查询企业节点记为 g，计算权重表示为 wi，两个节点所对应的关系集合记为 Rq和 Rg，其中集合中所对应的外贸出口、所在地区以及企业类型三个关联关系分别为 Rq1、Rq2、Rq3和Rg1、Rq2、Rq3。则两节点的关联相似度得分可表示为

论文5 首先构建广西民族文化知识图谱关系词组集WRS；然后调用分词函数split（），获取询问句分词向量Ｗ；最后，在关系词组集中对问句分词向量进行匹配检索，如果检索成功，则问句关系即可判定为匹配关系。

论文 9:

论文 12 以海量婚姻法相关知识为数据基础，以浅层语义模型为计算工具，得出具有层级关系的词集。其层级关系主要依据以高维空间语言模型计算出的词向量。根据词向量的高维空间分布，可以得出某一词向量的相近词集，并根据空间距离对联想进行分级，从而建立起与该词相关的语义实时扩展联想。

Original: https://blog.csdn.net/LuckyChenH/article/details/115318587
Author: LuckyChenH
Title: 知识图谱构建流程及算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548431/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

主成分分析（PCA）步骤及代码

主成分分析（Principal Component Analysis，PCA）, 简称PCA,是一种统计方法。过正交变换将一组可能存在相关性的变量转换为一组线性不相关的变量，转换后…

人工智能 2023年7月17日
0079
SER 语音情感识别-论文笔记5

SER 语音情感识别-论文笔记5 《MULTI-HEAD ATTENTION FOR SPEECH EMOTION RECOGNITION WITH AUXI…

人工智能 2023年5月23日
0064
全网最全RuntimeError: CUDA error: out of memory解决方法

第一种情况如果这个报错后面跟了想要占用多少显存但是不够这样的字眼，如下：解决办法就很简单了：改小batchsize，batchsize砍半可以差不多省掉一半的显存推理阶段加上…

人工智能 2023年7月6日
0061
[python]图像处理pillow库学习记录，查看图像信息、格式转换、图像通道分离与合并、图像增强等等······

一.前言： pillow库是python中经常使用的图像处理库，其中包含了很多的图像处理方法。RGB图像是我们经常使用的图像，常常需要对RGB图像进行处理，或者获取图像的一些基本信…

人工智能 2023年6月20日
0096
DenseNet解析

1 前言在计算机视觉领域，卷积神经网络（CNN）已经成为最主流的方法，比如最近的GoogLenet，VGG-19，Incepetion等模型。CNN史上的一个里程碑事件是ResN…

人工智能 2023年7月13日
0070
TransUnet官方代码测试自己的数据集（已训练完毕）

码字不易，收藏之余，别忘了给我点个赞吧！ ———Start 首先参考上一篇的训练过程，这是测试过程，需要用到训练过程的权重。 1. TransU…

人工智能 2023年6月16日
0077
猫狗图像识别（卷积神经网络算法，TensorFlow安装）

目录一、tensorflow库安装（1）TensorFlow的历史版本与对应Python版本（2）Python版本查询（3）找到上面的版本框进行对应的TensorFlow下…

人工智能 2023年7月12日
0089
数字孪生城市三维地图从零开发指南（上）

简介最近，ESMap 推出了数字孪生城市版的三维地图 SDK，对比之前的室内三图场景，城市三维地图场景更大，要解决的问题更多，后面我们会专门介绍城市地图引擎的架构。本文将针对如何…

人工智能 2023年6月4日
0092
数字图像处理第十章笔记——图像分割

目录引言一、基础知识二、点、线和边缘检测 2.1 背景知识 2.2 孤立点检测 2.3 线检测 2.4 边缘检测 2.5 基本边缘检测、更先进的边缘检测三、阈值处理 3….

人工智能 2023年6月22日
00147
模型融合（集成）

模型融合（集成）参考博客：Kaggle Ensembling Guide (https_mlwave.com) 模型集成是融合多个训练好的模型，基于某种方式实现测试数据的多模型融…

人工智能 2023年5月31日
0091
Linux下OpenCV的安装与测试成功教程（解决E: 无法定位软件包 libjasper-dev、无法找到directory `opencv.pc‘、fatal error:“highgui.h“)

目录前言下面是步骤 1、下载OpenCV源码 2、解压到指定目录并创建build目录 3、下载编译OpenC源码的cmake和一些依赖库。 4、检查cmake安装版本，检查是否…

人工智能 2023年6月18日
00287
全球与中国核桃牛奶行业市场现状分析及投资竞争态势研究报告2022-2028年

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月15日
0061
常识——tensorflow安装cpu版本

文章目录 * – 检测当前python版本 – 去tensorflow官网查看支持此python版本的tensorflow版本并下载 – 安装 …

人工智能 2023年5月25日
0089
树莓派视觉小车 — OpenCV巡线(HSL色彩空间、PID)

目录试错试错1：形态学处理试错2：HSV色彩空间基础理论 1、HSV与HSL色彩空间 2、PID调节一、OpenCV图像处理 1、在HSL色彩空间下得到二值图 2、对二…

人工智能 2023年5月26日
0080
YOLOv7

环境 widnows 10 64bit torch 1.7.1+cu101 前言近日，原 YOLOv3/YOLOv4/Scaled-YOLOv4 的团队推出了 YOLOv7，源码…

人工智能 2023年6月19日
0075
深度学习基础及实现的必备步骤

为什么要以均方误差作为损失函数？(将模型在每个训练样本上的预测误差加和，来衡量整体样本的准确性) 解：利用均方误差画出来的图像有如下特点曲线的最低点是可导的。越接近最低点，曲线…

人工智能 2023年7月13日
0061

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

知识图谱构建流程及算法

1、 实体抽取 (命名实体识别)

2、 关系抽取

大家都在看

1、实体抽取 (命名实体识别)

2、关系抽取