1 . 定义
知识图谱是由一些相互连接的实体和它们的属性构成的,是用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。
用来揭示实体之间关系的语义网络
- 信息是指外部的客观事实。举例:这里有一瓶水,它现在是7°。
- 知识是对外部客观规律的归纳和总结。举例:水在零度的时候会结冰。
三元组:实体entity,实体关系relation,实体entity
- 几个过程
原始数据类型一般来说有三类(也是互联网上的三类原始数据):
- 结构化数据(Structed Data):如关系数据库
- 半结构化数据(Semi-Structed Data):如XML、JSON、百科
- 非结构化数据(UnStructed Data):如图片、音频、视频、文本
要做好KG要综合利用好KR、NLP、Web、ML、DB等多方面的方法和技术。
2.1 知识抽取
信息抽取:从各种类型的半结构化、非结构化的数据源中提取出实体、属性以及实体间的相互关系,在此基础上形成本体化的知识表达;
2.1.1 结构化数据处理
针对结构化数据,通常是关系型数据库的数据,数据结构清晰,把关系型数据库中的数据转换为RDF数据(linked data),普遍采用的技术是D2R技术。
2.1.2 半结构化数据处理
半结构化数据:具有一定的数据结构,但需要进一步提取整理的数据。
eg. 百科的数据,网页中的数据等。
包装器是一个能够将数据从HTML网页中抽取出来,并且将它们还原为结构化的数据的软件程序。网页数据输入到包装器中,通过包装器的处理,输出为我们需要的信息。
2.1.3 非结构化数据处理
对于非结构化的文本数据,我们抽取的知识包括实体、关系、属性。
- 实体抽取
也称为命名实体识别,此处的实体包括概念,人物,组织,地名,时间等等。 - 关系抽取
实体和实体之间的关系,也是文本中的重要知识,需要采用一定的技术手段将关系信息提取出来。 - 属性抽取
也就是实体的属性信息,和关系比较类似,关系反映实体的外部联系,属性体现实体的内部特征。
2.2 知识融合
知识融合,就是将多个知识库中的知识进行整合,形成一个知识库的过程,在获得新知识之后,需要对其进行整合,以消除矛盾和歧义,比如某些实体可能有多种表达,某个特定称谓也许对应于多个不同的实体等;形成高质量的知识库。
知识融合的目的就是将不同知识库对实体的描述进行整合,从而获得实体的完整描述。主要包括:实体对齐,也包括关系对齐,属性对齐,可以通过相似度计算,聚合,聚类等技术来实现。
2.3 数据模型构建
知识图谱的数据=数据模型+具体数据
数据模型: 知识图谱的数据组织框架
2.4 知识推理
对于经过融合的新知识,进一步挖掘隐含的知识。
知识推理,根据已有的数据模型和数据,依据推理规则,获取新的知识或者结论,新的知识或结论应该是满足语义的。
eg. 比如实体的分类包含关系,一个电脑椅是椅子,椅子是家具,可以说,一个电脑椅是家具。常识规则的推理,一个男人的孩子是A,一个女人的孩子是A,可以知道,这个男人和女人是配偶。
2.5 质量评估
对最后的结果数据进行评估,将合格的数据放入知识图谱中。
eg. 对于公共领域的知识图谱,知识的获取采用了众包的方法,对于同一个知识点,可能会有很多人来完成,如果这个知识点只有一个答案,可以采用的一种策略是,将多人的标注结果进行比较,取投票多的结果作为最终的结果。
【参考】
[1] 知识图谱入门 (一) 知识图谱与语义技术概览, Pelhans, csdn
Original: https://blog.csdn.net/thefist11cc/article/details/113779990
Author: thefist11
Title: 知识图谱 (1)基本概念
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/558492/
转载文章受原作者版权保护。转载请注明原作者出处!