知识图谱概述
文章目录
1.1 知识图谱的基本概念
狭义: 特指一类知识表示,本质上是大规模语义网络
广义:大数据时代知识工程一系列技术的总称,在一定程度程度上指代大数据知识工程这一新兴学科。
1.1.1 知识图谱的狭义概念
- 知识图谱作为语义网络的内涵 作为一种知识表示形式,知识图谱是一种 大规模语义网络,包括实体(Entity)、概念(Concept)及其之间的各种语义关系。 知识图谱本质是语义网络: 语义网络是一种以图形化的(Graphic)形式通过点和边表示知识的方式,其基本组成元素是点和边。 点可以是实体(又称对象、实例)、概念(又称类别、类)和值(Value)。 边可以分为属性(Property)和关系(Relation)两类。当实体的某个属性值也是一个实体时,这个属性实质上就是关系。 语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassof)关系、实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性与关系。
- 知识图谱与传统语义网络的区别 根本区别:知识图谱规模大 (1)规模巨大。知识图谱点、边数量巨大原因在于需要覆盖实体,是大知识的代表。
(2)语义丰富。两方面:富含各类语义关系;语义关系建模多样。
(3)质量精良。大数据多源特性使得我们可以通过多个来源验证简单事实;众包平台有助于实现大规模知识验证。
(4)结构友好。知识图谱通常可以表示为三元组,通过图结构和RDF(Resource Description Framework)进行表示。 知识图谱构建与应用的独特挑战: (1)高质量模式缺失。放宽要求,允许模式(Schema)定义不完善甚至缺失,对数据语义理解以及数据质量控制提出挑战。
(2)封闭世界假设(Closed World Assumption)不再成立。CWA假定数据库/知识库中不存在的事实为不成立的事实。
(3)大规模自动化知识获取成为前提。 - 知识图谱与本体的区别 本体源于哲学的本体论,侧重对存在进行规定和刻画。本体刻画人们认知一个领域的基本框架,而知识图谱富含的是实例以及关系实例。模式定义实际上在完成本体定义的任务。
1.1.2 知识图谱的广义概念
知识图谱是大数据时代知识工程(Big Data Knowledge Engineering, BigKE)的代表性进展。知识工程的核心内容是建设专家系统,旨在让机器能够利用专家知识以及推理能力解决实际问题。知识表示是发展知识工程最关键的问题之一,知识表示的一个重要方式是知识图谱,侧重用关联方式表达实体与概念之间的语义关系。
1.2 知识图谱的历史沿革
以知识图谱为代表的大数据知识工程的产生有历史必然性。
1.2.1 知识图谱溯源
- 传统知识工程 知识工程属于符号主义。符号主义认为知识是智能的基础。传统人工智能专家认为人工智能的核心问题是知识表示、推理和应用。成功解决的问题普遍具有规则明确、应用封闭的特点,根本局限在于严重依赖人的干预(领域专家、知识工程师、用户反馈)。
- 传统知识工程的局限性 传统知识工程难以适用开放性应用,实际应用不是绝对封闭,则容易超出预先设定的知识库边界。机器理解常识的水平有限。 (1)隐形知识与过程知识等难以表达。
(2)知识表达的主观性与不一致性。专家认知有差异、冲突是常态。人类认知存在模糊性,如物体归类。
(3)知识难以完备。
(4)知识更新困难。
1.2.2 大数据知识工程
- 互联网与大数据应用催生了知识图谱 应用特点:规模巨大(如搜索引擎);精度要求相对不高;知识推理简单
- 大数据时代给知识图谱的发展带来了新机遇 (1)数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能。
(2)众包技术使得知识的规模化验证成为可能。
(3)高质量的用户生成内容(UGC)提供了高质量知识库来源。包括百科、社区、论坛、问答平台。
1.3 知识图谱的研究意义
1.3.1 知识图谱的认知智能的基石
认知智能是指让机器具备人类认知世界的能力。机器认知智能的两个核心能力是”理解”、”解释”。理解是指从数据到知识图谱中的知识要素(包括实体、概念和关系)的映射。解释是将知识图谱中的知识与问题或者数据相关联。
(1)知识图谱使能机器语言认知。
实现机器对自然语言的理解所需要的背景知识的条件如下,知识图谱满足所有条件:
- 规模必须足够巨大才能理解不同的实体和概念
- 语义关系必须足够丰富才能理解不同的关系
- 结构必须足够友好才能为机器所处理
- 质量必须足够精良才能让机器对现实世界产生正确的理解
(2)知识图谱赋能可解释人工智能:可解释性的缺失问题。
人类倾向于利用 概念、属性、关系这些认知的基本元素去解释现象和事实,可以通过知识图谱表达。
(3)知识图谱有助于增强机器学习的能力。
让机器学习模型利用大量累积的符号知识,降低机器学习模型对大样本的依赖,提高学习的经济性,提高对先验知识的利用率。
; 1.3.2 知识引导成为解决问题的重要方式之一
实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动的效果瓶颈。
1.4 知识图谱的应用价值
1.4.1 数据分析
大数据的精准分析(舆情分析、互联网商业洞察、军事情报分析、商业情报分析)和精细分析(个性化制造、搜集评价与反馈)需要知识图谱。
1.4.2 智慧搜索
- 精准的搜索意图理解
精准分类、语义理解、个性化推荐 - 搜索对象复杂化、多元化
文本、图片、代码、声音、视频、文案、素材 - 搜索粒度多元化
篇章级、段落级、语句级、词汇级 - 跨媒体协同搜索
不同媒体数据联合完成搜索、多模态搜索
1.4.3 智能推荐
- 场景化推荐。建立场景图谱,实现基于场景图谱的精准推荐。
- 冷启动下的推荐。利用来自知识图谱的外部知识,特别是关于用户与物品的知识,增强用户与物品的描述,提升匹配精度,是让系统尽快度过冷启动阶段的重要思路。
- 跨领域推荐。
- 知识型内容的推荐。
1.4.4 自然人机交互
对话式交互、问答式交互。
1.4.5 决策支持
建立包含各种语义关联的知识图谱,挖掘实体之间的深层关系,成为决策分析的重要辅助手段。
1.5 知识图谱的分类
1.5.1 知识图谱中的知识分类
- 事实知识。是关于某个特定实体的基本事实,最常见的知识类型。
- 概念知识。分为两类,一类是实体与概念之间的类属关系(isA关系),一类是子概念与父概念之间的子类关系(subclassOf)。
- 词汇知识。主要包括实体与词汇之间的关系以及词汇之间的关系,已取得较好应用效果。
- 常识知识。常识是人类通过身体与世界交互而积累的经验与知识,使人们不言自明的知识。常识知识的获取是构建知识图谱的一大难点。
1.5.2 知识图谱的领域特性
通用到领域/行业
DKG与GKG之间区别体现在知识表示、知识获取、知识应用三个层面:
- 在知识表示层面的区别可以从广度、深度、粒度这三个维度来考察。
- 在知识获取层面,DKG对质量要求更高。
- 在知识应用层面,DKG的推理链条相对较长,应用相对复杂。
联系:
- 领域知识是通过隐喻或者类比从通用知识发展而来。
- GKG与DKG相互支撑。GKG给DKG提供高质量种子事实和领域模式。DKG反哺GKG。
1.5.3 典型知识图谱
常见知识图谱
知识图谱领域特点构建方式、规模语言类型Cycorp公司的Cyc通用通过人工方法将上百万条人类常识编码成机器可用的形式,用于智能推断人工,700万条断言,63万个概念,3.8万条关系英语常识图谱普林斯顿大学的WordNet通用以同义词集合作为一个基本单元人工,15万个词,11万组同义词集合,20万条关系英语词汇图谱麻省理工学院的ConceptNet通用多语言常识知识库自动,800万个实体,2100万条关系多语言常识图谱Meta Web公司的Freebase通用众包编辑半自动,4400万个概念,24亿个事实英语百科图谱Geonames.org的Geonames领域多语言地理位置信息半自动,2500万个实体多语言地理图谱DBpedia通用百科图谱多语言自动构建半自动,2800万个实体多语言百科图谱YAGO通用人工校验,时空维度,多语言自动,1000万个实体,1.2亿条关系多语言百科图谱华盛顿大学的OpenIE通用开放性关系抽取,Never-ending自动,50亿条关系英语文本图谱BabelNet通用271种语言,自动融合自动,1400万个实体多语言词汇图谱WikiData通用众包编辑半自动,540万个实体多语言百科图谱Google知识图谱通用规模最大自动,未知多语言综合知识图谱微软亚洲研究院的Probase通用概念规模最大自动,270万个概念英语概念图谱搜狗知立方通用侧重于娱乐领域自动,未知汉语百科图谱百度知心通用支持百度搜索自动,未知汉语百科图谱复旦大学的CN-DBpedia通用实时更新,完整的数据/服务接口自动,1600万个实体,2.2亿条关系汉语百科图谱
Original: https://blog.csdn.net/HZCsummer/article/details/120966961
Author: YOLO_OnePiece
Title: 知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章 知识图谱概述
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/555383/
转载文章受原作者版权保护。转载请注明原作者出处!