知识图谱初识-知识图谱与语义技术简介

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:ae31783f-01e6-4665-8949-57102454fa9b

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:53ca89bb-82be-4592-b424-2d044e7b60a0

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:32386539-d879-4f99-ba44-6dc8383c499d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:8fa28a08-de95-4cee-89f3-3553c4f4c8c4

知识图谱初识-知识图谱与语义技术简介

; 知识图谱技术概览

知识图谱概念演化

知识图谱初识-知识图谱与语义技术简介

1960年,语义网络作为知识表示的一种方法被题出。
1980s,哲学理念”本体”被引入到人工智能领域被用来刻画知识。
1989年,Tim Berners-Lee发明了万维网(Linked Information System)。
1998年,从超文本链接到语义链接。
2006年,Tim突出强调了语义网络的本质是要建立开放数据之间的链接。
2012年,谷歌发布了基于知识图谱的搜索引擎产品。

从以上历程我们可以看出,知识图谱其实是得益于Web的发展,其中有着KR,NLP,Web,AI等多方面的影子。

; 知识图谱的本质

知识图谱整个体系还是比较大的,目前没有一个标准的定义,其中”Exploiting Linked Data and Knowledge Graphs in Large Organisations”这本书对知识图谱的定义为:

A knowledge graph consists of a set of interconnected typed entities and their attributes.

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:99f3448e-7c5e-49c4-8937-4dd7766ccf28

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:80be49e6-d153-4f2b-a9a6-2869d8957d2c

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c3bd9c01-6e87-4e71-b754-634968087ce2

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:923094ba-32c0-488e-977b-f9a6419f3da3

知识图谱初识-知识图谱与语义技术简介

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:aba576cc-b480-45a7-b717-5d026512e8a9

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:07d3df85-9938-43b7-8714-8431df5b0c44

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:fa050ff7-39ac-46e7-ab98-9a23213f90db

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:693ff554-9f25-4d65-a46d-d55c8e81290d

从Web角度 像建立文本之间的超链接一样,建立数据之间的语义链接,并支持语义搜索。
从NLP角度 怎样从文本中抽取语义和结构化数据。
从KR角度 怎样利用计算机符号来表示和处理知识。
从AI角度 怎样利用知识库来辅助计算机理解人的语言。
从DB角度 用图的方式去存储知识。

所以啊,其实做好KG要利用好KR,NLP,Web,ML,DB多方面的方法和技术。

我们再举个例子:

知识图谱初识-知识图谱与语义技术简介

“聪明的Ai”其实是从学习的角度进行感知,识别,判断,依靠深度学习。
“有学识的Ai”其实是从推理的角度进行思考,语言,推理,依靠知识图谱。

知识图谱技术简介

知识图谱初识-知识图谱与语义技术简介

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:176778f9-d562-40ca-a406-2a41544b8550

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:917968e9-9dcb-4a53-ac80-4b9b8af8a3a1

途中下面表示的是数据部分的主要来源:KBP,D2R,Linked MEDIA/Visual Genome,OneM2M,WikiData。

; 知识表示

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:f34f115a-31ba-4040-9365-110209dc26f8

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:bc991dc3-7001-45a5-a815-55839ab44d70

知识图谱初识-知识图谱与语义技术简介

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:9902cb72-0c06-4794-9464-989168f9972d

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c5979e52-e33e-4b74-ad1f-c665504e64b2

知识图谱初识-知识图谱与语义技术简介

以上这个图是官方给出的语义知识网表示框架,由于本篇文章是知识图谱概览,所以我们大概来看一下这个框架。最底层的URI/IRI是网络连接,上面一层是XML和RDF是资源表示框架,而SPARQL是一种知识查询语言。而蓝色部分(知识推理框架)包含了RDFS和OWL框架。下面我们对其中的几个框架做进一步解释:

RDF:资源描述框架(Resource Description Framework),它是由W3C制定的,是用来描述实体/资源的标准数据模型。

知识图谱初识-知识图谱与语义技术简介

还是以上面这个图为例,在知识图谱中我们一般用RDF形式化的来表示三元关系(Subject,predicate,object)。

RDFS在RDF的基础上定义了一些固定的关键词:Class,subClassOf,type,Property,subPropertyOf,Domain,Range以及多了Schema层。如下图:

知识图谱初识-知识图谱与语义技术简介

OWL:网络本体语言(Web Ontology Language)这个本体实际上是从哲学里面来的,OWL在RDF语言上扩充了Schema层,使之支持推理等操作。

Ontology in Philosophy:
Ontology is the philosophical study of the nature of being, becoming, existence or reality, as well asthe basic categories of being and their relations.

                                  Tom Gruber,Founder of Siri
哲学本体论:
本体论是对存在,成为,存在或存在的本质以及存在及其关系的基本类别的哲学研究。
                                                韦伯斯特

Ontology in Computer Science and Artificial Intelligence:
An ontology is a description (like a formal specification of a program) of the concepts andrelationships that can formally exist for an agent or a community of agents.

                                Tom Gruber,Founder of Siri
计算机科学与人工智能中的本体论:
本体是对代理或代理社区可以正式存在的概念和关系的描述(如程序的正式说明)。
                                Siri创始人汤姆·格鲁伯

Web Ontologies
Ontologies based on web standards such as RDFS/OWL.OWL is based on Description Logic, avery very long history of research in Artificial Intelligence.

基于Web标准的本体(如RDFS/OWL.OWL)是基于描述逻辑(DescriptionLogic)的,人工智能研究历史悠久。

知识图谱初识-知识图谱与语义技术简介

SPARQL:SPARQL是RDF的查询语言,它基于RDF数据模型,可以对不同的数据集撰写复杂的连接,由所有主流的图数据库支持。其操作如:

知识图谱初识-知识图谱与语义技术简介

JSON-LD:(JSON for Linking Data) 适用于作为程序之间做数据交换,在网页中嵌入语义数据和Restful Web Service。存储格式如:

知识图谱初识-知识图谱与语义技术简介

知识图谱的分布式表示–KG Embedding:在保留语义的同时,将知识图谱中的实体和关系映射到连续的稠密的低维向量空间。

知识图谱初识-知识图谱与语义技术简介

知识抽取

知识抽取大多是结合NLP和KG进行的。

知识图谱初识-知识图谱与语义技术简介

先是从网络获取大量的非结构化的文本数据,经过文本预处理后得到干净的文本数据,然后借助分词,词性标注,语法解析,依存分析等技术对文本进行处理,我们得到词法和句法的分层,接下来我们对文本进行NER命名实体识别和实体链接,最后通过关系抽取和事件抽取最终得到KR用的三元组,多元关系,模态知识等。

知识抽取的主要方法

知识图谱初识-知识图谱与语义技术简介

; 知识存储

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:28583019-27f5-43ae-a96b-89bbbfade70f

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:3d3f9b37-2f5c-4c38-8779-0d2543f09dc4

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:1c8476a4-aa67-43b1-b153-c21472a85b70

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:214805bd-8d69-4242-9077-110d39a80a79

在实践过程中,多为混合存储结构,图存储并非必须

知识图谱初识-知识图谱与语义技术简介

知识问答

KBQA(Knowledge-Based Question Answer,基于知识库的问题回答)
以直接而准确的方式回答用户自然语言提问的自动问答系统将构成下一代搜索引擎的基本形态。

知识图谱初识-知识图谱与语义技术简介

我们来举几个例子:

知识图谱初识-知识图谱与语义技术简介

传统的搜索引擎,只会将匹配的资源列在页面,我们需要自己去筛选理解其中的信息,以获取自己真正想得到的问题的答案。而嵌入了知识图谱的搜索引擎似乎更”智能”了,它能直接很直观的返回我们想要的真正的问题的答案。是不是很方便呢!

我们以一个例子来看看KBQA的实现流程:

知识图谱初识-知识图谱与语义技术简介

当你问”姚明的老婆多大了?”这个问题的时候,首先会对这个问题进行语义解析得到问题的语义表示,然后再KB中查找答案,最终将答案返回,其中KB知识库的数据数量和质量直接决定了该系统的质量。

; 知识推理

简单的来说,推理就是指基于已知事实推出来未知的事实的过程。
目前大部分搜索引擎都已经有了一定的推理能力。比如:

知识图谱初识-知识图谱与语义技术简介

知识图谱初识-知识图谱与语义技术简介

基于描述逻辑的推理:本体推理

描述逻辑:描述逻辑(decription logic)是一种用只是表示的逻辑语言和以其为对象的推理方法,主要用于描述概念分类及其概念之间的关系。描述逻辑是当前语义网发展中本体的理论基础。

主要方法:

(1)基于表运算(Tableaux)及改进的方法:FaCT++,Racer,Pellet Hermit等

(2)基于一阶查询重写的方法(Ontology based data acess,基于本体的数据访问)

(3)基于产生式规则的算法(如KAON、RDFox等)。

(4)回答集程序 Answer set programming

基于统计规则挖掘的推理

知识图谱初识-知识图谱与语义技术简介

基于表示学习的推理-Representational Learning

知识图谱初识-知识图谱与语义技术简介

知识融合

知识融合有一些其它叫法: Record Linkage,Entity Resolution,DataLinking,Knowledge Fusion,Entity Alignment… . . . .
都是指在不同数据集中找出同一个实体的描述记录,主要目的是对不同数据源中的实体信息进行整合,形成更加全面的实体信息。

知识图谱初识-知识图谱与语义技术简介

我们来用上图这个例子通俗一点来说一说什么叫知识融合,上图中下面一层的头像有7个,但是上面一层的头像只有2个,是因为下面一层的头像都是由上面两个头像戴上眼镜,假发等而来,所以我们只需要抓住上面两个头像进行处理就行了。
这就好比说,”洋芋、荷兰薯、地蛋、薯仔、土豆、荷兰薯、番仔薯、马铃薯”都指的是一个东西,知识融合要做的就是将这8个别名融合成一个名称。

; 知识众包

这个概念通俗的讲就是允许网站基于一定的方式,比如RDFa,JASON-LD等方式在网页和邮件等数据中嵌入语义化的数据,让个人和企业定制自己需要的知识图谱信息。

知识图谱初识-知识图谱与语义技术简介
知识图谱初识-知识图谱与语义技术简介

特别感谢:
上海交大的王昊奋博士的教程和东南大学漆桂林教授的文章以及其他资源的作者。

在整理过程中若本人理解有偏差或者有不到位的地方望大家多多包涵指正。
个人qq:1518887260

整理于2020年10月24日

Original: https://blog.csdn.net/weixin_41667472/article/details/109921313
Author: Voyager-m
Title: 知识图谱初识-知识图谱与语义技术简介

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/568875/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球