基于10亿+数据，HugeGraph与Nebula Graph的图遍历查询性能测试

2023年6月1日上午9:42 • 人工智能 • 阅读 68

随着社交、电商、金融、零售、物联网等行业的快速发展，现实社会织起了了一张庞大而复杂的关系网，亟需一种支持海量复杂数据关系运算的数据库即图数据库。本系列文章是学习知识图谱以及图数据库相关的知识梳理与总结

本文会包含如下内容：

基于friendster数据，对比测试HugeGraph与Nebula的图遍历查询性能

本篇文章适合人群：架构师、技术专家、对知识图谱与图数据库感兴趣的高级工程师

在nebula，hugegraph单机版分别导入 friendster数据。服务器版本是： CPU: 2 * Intel(R) Xeon(R) CPU E5-2680 v4 @ 2.40GHz，内存：256GB，硬盘：SAS盘

friendster数据集的统计信息如下：共有65608366个顶点，1806067135条边，约18亿+的数据量

测试基于导入的friendster数据进行。

环境搭建及数据导入，参见我之前的blog，地址如下：

注意：

nebula如果要使用match语句，需要提前针对person创建索引，语句如下：

create tag index indexPerson on person();

rebuild tag index indexEntityName;

索引创建完毕后，则能正常使用match语句

hugegraph rest api测试时，只写了请求路径，在实际测试中，需要在前面添加http://ip:port, 并将xxxgraph替换为实际的图名称

测试结论：

nebula与hugegraph针对业务上常用的图遍历查询【一二度好友、共同好友】都能在秒内返回
nebula的go语句的查询性能比match语句要好，match语句估计官方后续会持续优化，建议使用go语句
hugegraph基于REST API查询性能比使用gremlin语句要好，建议使用REST API.

go from 969679 over friend yield friend._dst as vid

结果：35条

耗时：0.002s

MATCH (v:person)-[e:friend*1]->(p)

where id(v)==969679 RETURN id(p)

结果：35条

耗时：0.011s

g.V(969679).outE().otherV()

.valueMap(‘id’)

结果：35条

耗时：0.047s

/graphs/xxxgraph/traversers/kout

?source=969679

&direction=OUT&max_depth=1

结果：35条

耗时：0.003s

go 2 steps from 969679 over friend yield friend._dst as vid

结果：5645条

耗时：0.021s

MATCH (v:person)-[e:friend*2]->(p) where id(v)==969679 RETURN id(p)

结果：5645条

耗时：0.172s

g.V(969679).outE().otherV().outE()

.otherV().valueMap(‘id’)

结果：5645条

耗时：0.067s

/graphs/xxxgraph/traversers/kout?source=969679&direction=OUT

&max_depth=2

结果: 5446条，因为针对结果去重，

耗时：0.029s

go from 969679 over friend intersect go from 6109361 over friend

结果：1条

耗时：0.016s

MATCH (v:person)-[e:friend1]->(p) where id(v)==969679 return id(p) intersect MATCH (v:person)-[e:friend1]->(p) where id(v)==6109361 return id(p)

结果：1条

耗时：0.021s

g.V(969679).outE().otherV()

.aggregate(‘x’)

.has(‘id’,6109361).outE().otherV()

.where(within(‘x’)).dedup().valueMap(‘id’)

结果：1条

耗时：0.008s

/graphs/xxxgraph/traversers/sameneighbors?vertex=969679&other=6109361

&direction=OUT&label=friend

结果: 1条

耗时：0.004s

针对kout，hugegraph的REST API提供了基础版和高级版两个版本，高级版使用POST请求，参数如下：

注意：

如果将nearest参数修改为false,则数量是：5463，nearest参数解释如下：

nearest为true时，代表起始顶点到达结果顶点的最短路径长度为depth，不存在更短的路径；

nearest为false时，代表起始顶点到结果顶点有一条长度为depth的路径（未必最短且可以有环），选填项，默认为true

rest api的返回结果是去重的，所以数量上少一些（不去重是5645条）

{
    "source":969679,
    "step":{
        "direction":"OUT",
        "labels":[
            "friend"
        ]
    },
    "max_depth":1,
    "nearest":true,
    "with_vertex":false,
    "with_path":true,
    "limit":10000
}

Original: https://blog.csdn.net/penriver/article/details/115504322
Author: java编程艺术
Title: 基于10亿+数据，HugeGraph与Nebula Graph的图遍历查询性能测试

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/556103/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习—卷积神经网络（CNN）全笔记，附代码

本文内容为哔站学习笔记【卷积神经网络-CNN】深度学习（唐宇迪带你学AI）：卷积神经网络理论详解与项目实战，计算机视觉，图像识别模块实战_哔哩哔哩_bilibili 目录深度学习…

人工智能 2023年7月3日
0057
智能优化算法：北方苍鹰优化算法-附代码

智能优化算法：北方苍鹰优化算法文章目录智能优化算法：北方苍鹰优化算法 * 1.北方苍鹰优化算法简介 2.北方苍鹰优化算法基本原理 – 2.1灵感来源和北方苍鹰的行为…

人工智能 2023年6月24日
0070
FairMOT配置（VS2019+Win10+CUDA11.0）

配置环境： Win10 VS2019 CUDA11.0 Pytorch1.7 配置步骤： 1、下载FairMOT： git clone –recursive https://gi…

人工智能 2023年7月22日
0065
2022年你应该知道的十大Python库

学习数据分析绝非易事，有无数种工具和资源可供使用。因此，有时会让我们很难弄清楚该学习什么技能，该使用哪种工具。在本文中，我们就来给大家介绍一下数据分析中最常用的10个Python…

人工智能 2023年7月18日
0063
【快速理解张量】通过torch.rand和举例通俗解释张量tensor

问题描述：深度学习的核心就是卷积，而卷积的核心那就是张量。那么如何理解张量（tensor）就成了深度学习路途中不可缺少的一步，讲真的，刚学习深度学习那会儿张量实在是困惑了自己很…

人工智能 2023年6月23日
0080
机器学习数据预处理——降维

在机器学习的训练过程中，总是会碰到样本大、特征多的数据集。而这些数据集里面的数据有些是用处很小甚至完全无用的。如果一组数据中的无用数据占比较大时，一方面会使得模型的训练时间变长，另…

人工智能 2023年7月17日
0088
Freebase中的基本概念

Freebase中的基本概念来源：https://developers.google.com/freebase/guide/basic_concepts Graph Freeba…

人工智能 2023年6月1日
00167
Python入门50个小程序

程序1：数字组合问题描述：有四个数字：1、2、3、4，能组成多少个互不相同且无重复数字的三位数？各是多少？问题分析：可填在百位、十位、个位的数字都是1、2、3、4。组成所有的排列…

人工智能 2023年7月5日
0054
2022年全球及中国样本释放剂市场研究报告

2021年全球样本释放剂市场规模大约为亿元（人民币），预计2028年将达到亿元，2022-2028期间年复合增长率（CAGR）为 %。未来几年，本行业具有很大不确定性，本文的2…

人工智能 2023年7月18日
0039
python机器学习classification_report()函数输出模型评估报告

classification_report()是python在机器学习中常用的输出模型评估报告的方法。 classification_report()函数介绍 classifica…

人工智能 2023年6月13日
00129
利用torch.nn实现softmax回归Fashion-MNIST数据集上进行训练和测试

利用torch.nn 实现softmax 回归Fashion-MNIST 数据集上进行训练和测试：（1 ）（2 ）（3 ）同上（4 ）构建模型（5 ）损失函数和优化算法（6…

人工智能 2023年6月17日
00127
K-Means 聚类算法 Python实现

聚类算法将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合，这些对象与同一个簇中的对象彼此相似，与其他簇中的对象相异。&#8…

人工智能 2023年7月18日
0053
图神经网络图像处理,神经网络与图像处理

CNN神经网络给图像分类（Matlab）你要看你的图像是什么。如果是彩色数字，先转成灰度。用MNIST训练网络。如果是各种主题，用彩色的imageNET训练。如果你的数据量大到足…

人工智能 2023年6月20日
0076
人脸识别AdaFace学习笔记

原文链接：https://openaccess.thecvf.com/content/CVPR2022/papers/Kim_AdaFace_Quality_Adaptive_Ma…

人工智能 2023年5月26日
00111
ECCV 2022 | 单点监督目标检测！国科大提出P2BNet：标一个点就能训练出强有力的目标检测器…

点击下方卡片，关注” CVer“公众号 AI/CV重磅干货，第一时间送达针对于单点监督的精准目标检测网络：P2BNet 目标检测只需要标一个点就行，比强…

人工智能 2023年6月24日
0073
通过Excel+Word批量生成文档及批量提取和修改文档名字

excel和word是日常的办公软件，最近老师给了我一个任务，任务内容如下：给了我一个班级同学成绩单excel表格和一个给家长的一封信word模板，在word模板中有相应的成绩表格…

人工智能 2023年7月8日
00354

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于10亿+数据，HugeGraph与Nebula Graph的图遍历查询性能测试

大家都在看