如何高效地存储与检索大规模的图谱数据？

2023年6月1日下午6:34 • 人工智能 • 阅读 83

本文分享自华为云社区《知识图谱的存储与检索》，原文作者：JuTzungKuei 。

1、概述

背景：随着互联网的发展与普及，一个万物互联的世界正在成型。与此同时，数据呈现出爆炸式的指数级增长，我们正处于一个数字洪流汹涌澎湃的新时代。

我们每天产生多少数据？据统计每天：

*
– 发送5亿条推文博客；
– 发送2940亿封邮件；
– 全世界每天有50亿次在线搜索；
– 一辆联网汽车会产生4TB的数据；
– Facebook每天产生4PB的数据，其中包含3.5亿的照片以及1亿小时的视频。

知识越来越多，目前常见的知识图谱都是以三元组的数据形式构成。

*
– DBpedia 有近8千万条三元组；
– YAGO 有超过1.2亿三元组；
– Wikidata 有近4.1亿三元组；
– Freebase有超过30亿三元组；
– 中文百科有约1.4亿三元组。

所以，我们该如何高效地存储与检索大规模的图谱数据？？？

知识图谱是一个有向图结构，描述了现实世界中存在的实体、事件或者概念以及它们之间的关系。其中，有向图中的节点表示实体、事件或者概念，图中的边表示相邻节点之间的关系。

图中展示了关于刘德华的知识图谱局部示意图。图中红色字体表示概念，矩形框表示实体，蓝色字体表示属性，椭圆表示属性值，橙色字体表示关系。

概念：人物、国家、电影等
实体：刘德华、朱丽倩、中国、天下无贼等
属性：身高、体重、性别、首都、简称、上映时间、豆瓣评分等
关系：妻子、女儿、国籍、主演等

2、知识图谱的存储

知识图谱中的知识是通过RDF结构进行表示的，其基本构成单元是事实。

每个事实是一个三元组：

下面展示了知识图谱中知识表示的三元组列表。

为了对知识图谱数据进行高效查询和管理，需要在存储介质上合理地组织这些数据。按照存储方式的不同，标准知识存储方法可以分为基于表结构的存储和基于图结构的存储。

2.1、基于表结构的存储

基于表结构的存储利用二维的数据表对知识图谱中的数据进行存储。根据不同的设计原则，知识图谱可以具有不同的表结构，目前可以分为五类：三元组表、属性表、水平表、垂直表和全索引。

2.1.1 三元组表

知识图谱中的事实是一个个的三元组，一种简单直接地存储方式是设计一张表用于存储知识图谱中所有的事实，就是在关系数据库中建一张具有三列的表，该表的模式为：

这种存储方式简答直接，易于理解，但是将整个知识图谱都存储在一张表中，会导致单表的规模太大，在复杂查询，或者增删改查时会有非常大的开销。

方案代表：RDF数据库系统 3store、Virtuoso

2.1.2 属性表

属性表，又称类型表，即为每种类型构建一张表，同一类型的实例放在相同的表中。表的每一列表示该类实体的一个属性，每一行存储该类实体的一个实例。

这种存储方式虽然客服了三元组表的不足，但是也造成了新的问题，大量数据字段重复，部分数据的属性值存在空值，均会造成冗余存储。

方案代表：RDF三元组库 Jena

人物

国家

电影

2.1.3 水平表

水平表每行记录存储一个知识图谱中一个主语的所有谓语和宾语。实际上，水平表相当于知识图谱的邻接表。水平表的列数是知识图谱中不同谓语的数量，行数是知识图谱中不同主语的数量。

真实知识图谱中，不同谓语数量可能成千上万个，会超出数据库上限；存在大量空值。

方案代表：早期的RDF数据库系统 DLDB

2.1.4 垂直表

垂直表是一种以三元组的谓语作为划分维度的方法，将RDF知识图谱按照谓语划分为若干张只包含主语和宾语两列的表，表的总数量即知识图谱中不同谓语的数量，也就是说，为每种谓语建立一张表，表中存放知识图谱中由该谓语连接的主语和宾语值。

这种方法用不同表之间的连接代替自连接，避免了自连接操作。但是它无法很好地支持谓语是变量的查询操作。

方案代表：SW-Store

性别

主演

首都

2.1.5 全索引

全索引，又称六重索引，是针对知识图谱数据和运算的特点提出的一种优化技术，利用知识图谱三元组的特点来构建索引。将三元组中主语、谓语、宾语的各种排列情况都枚举出来，然后为它们一一构建索引。主语、谓语和宾语的排列情况共计六种。这些索引内容正好对应知识图谱运算中带变量的三元组模式的各种可能，是一种典型的”空间换时间”策略。

这种方法不仅缓解了三元组表的单表自连接问题，而且加速了图谱的查询效率。但是也增加了更新和维护成本。

方案代表：RDF-3X、Hexastore

六张表：SPO、SOP、PSO、POS、OSP、OPS

2.2、基于图结构的存储

基于图结构的存储是利用图的方式对知识图谱中的数据进行存储。将实体看作节点，关系看作带有标签的边，那么知识图谱的数据很自然地满足图模型的结构。基于图结构的存储方式能够直接准确地反映知识图谱的内部结构，目前主要有两种图存储模式：邻接表和邻接矩阵。对应的数据库是图数据库，数据模型是属性图。

2.2.1、邻接表

所谓的邻接表，就是知识图谱中的每个节点（实体）对应一个列表，列表中存储与该实体相关的信息。在利用图结构管理知识图谱数据的时候，一个关键问题是如何在基于图结构的指数候选空间中对查询操作有效剪枝。

2.2.2、邻接矩阵

所谓的邻接矩阵，就是在计算机中维护多个n x n维的矩阵，其中n为知识图谱中节点的数量。每个矩阵对应一个谓语，其中每一行或每一列都对应知识图谱中的一个节点。若谓语p所对应的矩阵中第i行第j列为1，则表示知识图谱中第i个节点到第j个节点有一条谓语为p的边。

三维矩阵M：|S| x |P| x |O|，分别表示主谓宾的数量，如果

2.2.3、图数据库

图数据库的理论基础是图论，通过节点、边和属性对数据进行表示和存储。具体来说，图数据库基于有向图，其中节点、边、属性是图数据库的核心概念。

节点：表示实体、事件等对象。
边：指图中连接节点的有向线条，用于表示不同节点之间的关系。
属性：描述节点或边的特性。
常见图数据库：Neo4J、JanusGraph、OrientDB等；

3、知识图谱的检索

知识图谱的知识实际上是通过数据库系统进行存储的，大部分数据库系统通过形式化的查询语言为用户提供访问数据的接口。

3.1 SQL

Structured Query Language 结构化查询语言，用于管理关系型数据库。

四种操作

*
– 增：insert into 表名(列1, 列2, …) values(值1, 值2, …)
– 删：delete from 表名 where 条件
– 改：update 表名 set 列1=值1 where 条件
– 查：select 列1, 列2, … from 表名 where 条件

3.2 SPARQL

SPARQL是由W3C为RDF数据开发的一种查询语言和数据获取协议，是被图数据库广泛支持的查询语言。

三种操作：

*
– 增：insert data 三元组数据
– 删：delete data 三元组数据
– 改：无，增删结合
– 查：select 变量1, 变量2, … where 图模式

select ?x, ?y
where {
    &#x5929;&#x4E0B;&#x65E0;&#x8D3C; &#x4E3B;&#x6F14; ?x .
    &#x65E0;&#x95F4;&#x9053; &#x4E3B;&#x6F14; ?x .
    ?x &#x751F;&#x65E5; ?y .
}

3.3 Gremlim

Gremlin是Apache Tinkerpop框架中使用的图遍历语言，使用Gremlin可以很方便的对图数据进行查询，进行图的修改、局部遍历和属性过滤等。

三种操作

*
– 增：g.addV(‘人物’).property(id,’007′).property(‘生日’,’1962年6月22日’)、g.addE(‘丈夫’).property(‘xxx’, ‘yyy’).from(g.V(‘001’)).to(g.V(‘002’))
– 删：g.V(‘007’).drop()
– 查：g.V().hasLabel(‘人物’)、g.E().label()、g.V().valueMap()

3.4 Cypher

Cypher是一个描述性的图形查询语言，允许不必编写图形结构的遍历代码对图形存储有表现力和效率的查询。是一种被广泛使用的声明式图数据库查询语言。

四种操作

*
– 增：create(n:人物 {name: ‘周星驰’, 生日: ‘1962年6月22日’}) return n;
– 删：match(s:Student{id: 1}) detach delete s;
– 改：match(n) where id(n)=7 set n.name = ‘neo’ return n;
– 查：match(n{name:”刘德华”}) return n、match(a:人物 {name:”刘德华”})-[b:Relation {{name:”国籍”}]->(c) return c;

参考

赵军：《知识图谱》
肖仰华：《知识图谱概念与技术》
王昊奋：《知识图谱方法、实践与应用》
[知识图谱综述，构建，存储与应用] (https://segmentfault.com/a/1190000023366451)
[知识图谱学习笔记（九）——知识图谱的存储与检索] (https://www.jianshu.com/p/4484981a01df)
[知识图谱04：知识图谱的存储与检索] (https://blog.csdn.net/u013230189/article/details/108959770)
[知识图谱的存储于检索] (https://zhuanlan.zhihu.com/p/54916712)
[Gremlin查询] (https://support.huaweicloud.com/usermanual-ges/ges_01_0024.html)
[深入学习图语言Gremlin | 图数据库入门] (https://zhuanlan.zhihu.com/p/115098569)
[Neo4j Cypher查询语言详解] (http://www.ttlsa.com/nosql/how-to-neo4j-cypher-query-language/)
[Neo4j系列- Cypher入门（四）] (https://www.jianshu.com/p/53e2a67e9f40)
[neo4j数据库之节点与关系的增删改查] (https://blog.csdn.net/weixin_38927376/article/details/104806662)
[知识图谱（四）：Neo4j查询语法] (https://blog.csdn.net/ai_1046067944/article/details/85342567)

点击关注，第一时间了解华为云新鲜技术~

Original: https://blog.csdn.net/devcloud/article/details/116698881
Author: 华为云开发者联盟
Title: 如何高效地存储与检索大规模的图谱数据？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/558054/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

手把手教你使用YOLOV5训练自己的目标检测模型-口罩检测-视频教程

手把手教你使用YOLOV5训练自己的目标检测模型大家好，这里是肆十二（dejahu），好几个月没有更新了，这两天看了一下关注量，突然多了1k多个朋友关注，想必都是大作业系列教程来…

人工智能 2023年6月26日
00109
智能车巡线python-opencv

背景：2022智能车比赛百度提高组思路：先拿赛道通过HSV调阈值，然后得到二值化图片，对二值化图像进行巡线；巡线的思路:从图片最后一行的中央开始往左右两边扫线：分扫左线与扫右线…

人工智能 2023年6月18日
0084
ubuntu 20.04 opencv4.5.4安装记录

安装opencv sudo apt-get install cmake 下载Opencv和opencv_contrib并编译opencv下载：https://github.com/…

人工智能 2023年7月20日
0058
ROS小车打造（二）–Jetson TX2安装与调试

我拿到板子之后,要做小车的打造,需要了解板子有那些硬件资源与软件资源.然后看那一些可以利用起来,具体可参见以下文档 jetson_tx2_developer_kit_user_gu…

人工智能 2023年5月25日
0097
【数据分析师-数据分析项目案例一】600w+条短租房数据案例分析

短租房数据案例分析 1 前言 * 1.1 数据集 1.2 数据分析思路梳理 2 数据分析 * 2.1 数据加载 2.2 数据查看 3 数据可视化 * 3.1 每天房屋入住率 3.2…

人工智能 2023年7月15日
0090
目标检测 YOLOv5 自定义网络结构

flyfish 版本：YOLOv5:v5 具体已经借鉴的自定义网络结构包括 MobileNetV3 Large MobileNetV3 Small ShuffleNetV2 Shu…

人工智能 2023年7月12日
0082
层次聚类概述

文章目录层次聚类 * 聚合式聚类簇间距离的计算 – 单链接(single-linkage) 全链接(complete-linkage) 平均链接(average-l…

人工智能 2023年7月16日
00127
Python中的groupby分组

Python中的groupby分组一、groupby函数 groupby函数功能：对DataFrame进行分组（可单类分组，可多类分组）需求：按”字段”列…

人工智能 2023年7月4日
0089
pytorch中的Dropout用法

用法介绍 Dropout主要的作用是在神经网络训练过程中防止模型过拟合。神经网络的输入单元是否归零服从伯努利分布，并以概率p p p随机地将神经网络的输入单元归零。pytorch中…

人工智能 2023年7月21日
0046
【知识图谱论文】R2D2:基于辩论动态的知识图推理

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0066
分布式训练(一)——GPU设置

目录 1. GPU设置 2. GPU设置的API列表 3.GPU设置实战 3.1 对每个GPU设置内存自增长 3.2 设置可见GPU 3.3给GPU做逻辑切分 3.4 手动指定的方…

人工智能 2023年5月24日
00110
【备考】计算机python二级过考指南（考点+典例）

python操作题题型分类整理：Python计算机二级过考指南_一只自力更生的芋圆的博客-CSDN博客_输入一个非空字符串此条整理Python计算机二级等级考试的程序设计题，但也基…

人工智能 2023年7月5日
0084
【论文考古】量化SGD Federated Learning with Quantization Constraints

以减小量化后参数误差为目标，利用格编码和多用户合并时的增益，提升联邦学习的性能表现简介这篇文章是通信领域对FL进行量化的代表作，其中挂名的IEEE Fellow都是通信领域的大…

人工智能 2023年6月4日
0087
Semi-Supervised Semantic Segmentation with Cross-Consistency Training论文笔记

文章标题：Semi-Supervised Semantic Segmentation with Cross-Consistency Training文章地址：https://arx…

人工智能 2023年7月1日
0086
《机器学习》理论——速读学习2 常用方法（3）

该系列文章系个人读书笔记及总结性内容，任何组织和个人不得转载进行商业活动！time: 2021-12-24[TencentCloudSDKException] code:Faile…

人工智能 2023年6月3日
0068
# 一点毕设的小感悟（词频统计+可视化分析）

写在前面今天早晨编毕设的时候，想先用 ROST CM6利用语义网络分析简单对旅游形象进行一个感知。看了好几篇文献在做语义网络图前都提到了关键词词频统计分析，虽然ROST软件自带…

人工智能 2023年5月31日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30