图数据挖掘（二）：网络的常见度量属性

2023年10月25日上午1:26 • Python • 阅读 42

1 度分布

网络的度分布(p(k))表示了一个随机选择的节点拥有度(k)的概率。我们设度为(k)的节点数目(N_k = \sharp\text{ nodes with degree } k)，除以节点数量(N)则可得到归一化后的概率质量分布：

[P(k)=N_k / N(k\in \mathbb{N}) ]

我们有：(\sum_{k \in \mathbb{\mathbb{N}}} P(k)=1)。
对于下面这个网络：

其归一化后的度分布直方图可表示如下：

2 路径

2.1 图的路径

图的路径(path)指一个节点序列，使得序列中的每个节点都链接到序列中的下一个节点(注意：这里的术语不同教材不一样，有的教材把这里的路径定义为漫游(walk)，而将术语”路径”保留给简单路径)。路径可以用以下方式进行表示：

[P_n=\left{i_0, i_1, i_2, \ldots, i_n\right} \quad P_n=\left{\left(i_0, i_1\right),\left(i_1, i_2\right),\left(i_2, i_3\right), \ldots,\left(i_{n-1}, i_n\right)\right} ]

一个路径可以通过经过同一条边多次而和它自身相交。如下面这个图中更多路径ABDCDEG就和自身相交。

注意，在有向图中路径只能沿着边的方向。

2.2 路径的条数

路径的条数定义为节点(u)和(v)之间的路径数量。我们发现邻接矩阵的幂和路径的条数之间有着关系。

长度(h=1)(这里的h可理解为跳数hops)的路径计数矩阵: 只需要考察(u)和(v)之间是否存在长度为(1)的链接，即 [H_{uv}^{(1)} = A_{uv} ]
长度(h=2)的路径计数矩阵：需要考察(u)和(v)之间是否存在长度为(2)的路径，即对满足(A_{u k}A_{k v}=1)的(k)进行计数。 [H_{u v}^{(2)}=\sum_{k=1}^N A_{u k} A_{k v}=\left[A^2\right]_{u v} ]
长度(h)的路径计数矩阵：需要考察(u)和(v)之间是否存在长度为(h)的路径，即对满足(A_{u k_1} A_{k_1 k_2} \ldots . A_{k_{h-1} v}=1)的所有(\langle k_1,k_2,\cdots, k_{h-1}\rangle)序列进行计数。 [H_{u v}^{(h)}=\left[A^h\right]_{u v} ]

上述结论对有向图和无向图都成立。上述定理解释了如果(u)和(v)之间存在最短路径，那么它的长度就是使(A^k_{uv})非零的最小的(k)。
进一步推论可知，在一个(n)个节点的图中找到所有最短路径的一个简单方法是一个接一个地对图的邻接矩阵(A)做连续的幂计算，知道第(n-1)次，观察使得每一个元素首次变为正值的幂计算。这个思想在Folyd-Warshall最短路径算法中有着重要应用应用。

2.3 距离

图中两个节点之间的距离(distance)定义为两个点最短路径中的边数（如果两个点没有连通，距离通常定义为无穷大）。
如对下面这个图我们有(B)、(D)之间的距离(H_{B,D}=2)，(A)、(X)之间的距离(h_{A, X}=\infty)。

注意，在有向图中距离必须沿着边的方向。这导致有向图中的距离不具有对称性。比如下面这个图中我们就有(h_{A, C} \neq h_{C, A})。

我们定义两两节点之间距离的最大值为图的直径（diameter）。

2.4 平均路径长度

无向连通图（连通分量）或有向强连通图（强连通分量）的平均路径长度（average path length）定义为：

[\bar{h}=\frac{1}{2 E_{\max }} \sum_{i, j \neq i} h_{i j} ]

这里(h_{ij})是节点(i)到(j)的距离。(E_{max}=\frac{n(n-1)}{2})，这里(2E_{max})中的系数(2)可要可不要，不同教材定义方法不一样。
在计算平均路径长度时，我们通常只计算连通节点之间的距离（也即忽略长度为”无穷”的路径）

2.5 寻找最短路径

对于无权图，我们可以由宽度优先搜索(BFS)搜寻图的最短路径。

从节点(u)开始，将其标注为(h_u(u)=0)，并将其加入队列。
当队列不为空时：
将队首元素(v)移出队列，将其未标注的邻居加入队列并标注为(h_u(w) = h_u(v) + 1)。
循环往复。

对于带权图，我们当然就得寻求Dijkstra、Bellman-Ford等算法啦,此处不再赘述.

3 节点中心性

节点(i)的中心性(centrality)可以用于度量节点(i)的重要程度。节点的中心性有许多种类，下面我们介绍介数中心性(betweeness centrality)和接近中心性(closeness centrality)。

3.1 介数中心性

介数中心性基于这样一个思想：如果一个节点在许多其它节点之间的最短路径上，那么这个节点就是重要的。于是我们可以将节点(i)的介数中心性定义为：

[c_v=\sum_{s \neq v \neq t} \frac{#(\text { shortest paths betwen } s \text { and } t \text { that contain } v)}{#(\text { shortest paths between } s \text { and } t)} ]

以下面这个图为例：

[c_A=c_B=c_E=0\ c_C=3\ (\text{A-C-B}, \text{A-C-D}, \text{A-C-D-E})\ c_D=3\ (\text{A-C-D-E}, \text{B-D-E}, \text{C-D-E}) ]

3.2 接近中心性

接近中心性基于这样一个思想：如果一个节点到其它所有节点的最短路径长度都很小，那么这个节点就是重要的。于是我们可以将节点(i)的接近中心性定义为：

[c_v=\frac{1}{\sum_{u \neq v} \text { shortest path length between } u \text { and } v} ]

还是以上面那个图为例，在该图中有：

[c_A=1 /(2+1+2+3)=1 / 8 \ (\text{A-C-B}, \text{A-C}, \text{A-C-D},\text{A-C-D-E})\ c_D=1 /(2+1+1+1)=1 / 5 \ (\text{D-C-A}, \text{D-B}, \text{D-C}, \text{D-E}) ]

4 聚类系数

节点(i)的聚类系数(clustering coefficient)可以直观地理解为节点(i)的邻居有多大比例是互相连接的。设节点(i)的度为(k_i)，则其聚类系数(C_i)定义为

[C_i=\frac{2 e_i}{k_i\left(k_i-1\right)} ]

这里(e_i)为节点(i)邻居之间的边数，我们有(C_i\in[0, 1])。下面展示了聚类系数的一些实例：

图的平均聚类系数（average clustering coefficient）定义为：

[C=\frac{1}{N} \sum_i^N C_i ]

5 真实世界网络的属性

接下来我们来看一MSN收发信息网络(有向)的实例。

该网络中245 million用户注册，180 million用户参与了聊天，拥有超过30 billion个回话。超过 255 billion条交互信息。
连通性

度分布

其度分布高度倾斜，平均度为(14.4)。

log-log度分布

聚类系数

这里为了方便出图，我们定义横坐标为度(k)，对应的纵坐标(C_k)为度为(k)的节点的聚类系数(C_i)的平均值，即(C_k=\frac{1}{N_k} \sum_{i: k_i=k} C_i)。

整个网络的平均聚类系数为(0.11)。

距离分布

其中平均路径长度为(6.6)，(90\%)的节点可以在(8)跳之内到达。

参考

[1] http://web.stanford.edu/class/cs224w/
[2] Easley D, Kleinberg J. Networks, crowds, and markets: Reasoning about a highly connected world[M]. Cambridge university press, 2010.

[3] Barabási A L. Network science[J]. Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences, 2013, 371(1987): 20120375.

[4] 《图论概念梳理》

Original: https://www.cnblogs.com/orion-orion/p/16850617.html
Author: orion-orion
Title: 图数据挖掘（二）：网络的常见度量属性

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/804668/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python计算机视觉第一章

文章目录 1.1PIL:python图像处理类库 * 1.1.1转换图像格式 1.1.2创建缩略图 1.1.3复制和粘贴图像区域 1.1.4调整尺寸和旋转 1.2Matplotll…

Python 2023年9月3日
0041
【nginx】使用 sub_filter 注入 js 代码，例如 google analysis 等

1. 创建 GA[1] 2. 注入代码[2] 3. 结果网站 F12 GA 控制台其他用处案例：给页面末尾添加文字 Reference 在一项工作中，已经将内网的一个网站通过 …

Python 2023年10月19日
0039
python随机森林特征重要性原理_使用Python的随机森林特征重要性图表

我正在使用Python中的RandomForestRegressor，我想创建一个图表来说明功能重要性的排名。这是我使用的代码： from sklearn.ensemble imp…

Python 2023年8月8日
0056
Nuscenes 数据集浅析

Nuscenes 数据集浅析参考：Nuscenes官网链接注意：文中存在官网还未更新的内容，一般采用 红色部&a…

Python 2023年10月26日
0025
Matplotlib在figure中画矩形

当您进行数据可视化时，您可能希望通过添加一些注释来突出显示绘图的特定区域。在这篇文章中，我们将学习如何在 Python 中使用 matplotlib 制作的绘图上添加 &…

Python 2023年8月31日
0036
二、小程序框架

目录框架一、响应的数据绑定二、页面管理三、基础组件四、丰富的API 模块化一、模块化二、文件作用域三、API 视图层 View 一、WXML 事件什么是事件事件…

Python 2023年9月16日
0050
超级详细的 Maven 教程（基础+高级）

1. Maven 是什么 Maven 是 Apache 软件基金会组织维护的一款专门为 Java 项目提供构建和依赖管理支持的工具。一个 Maven 工程有约定的目录结构，约…

Python 2023年10月10日
0038
python打砖块游戏程序设计报告_实现打砖块小游戏.py

导入模块 import pygame from pygame.locals import * import sys,random,time,math class GameWindo…

Python 2023年9月22日
0039
给Jupyter Notebook增添/删除kernel

引言对于新建的一个conda环境，经常希望其能在notebook里运行，所以简单记录一下流程首先，需要安装ipykernel pip install ipykernel 增添k…

Python 2023年6月12日
0063
特征融合的分类和方法

1、特征融合的定义特征融合方法是模式识别领域的一种重要的方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍然存在很多的挑战，特征融合方法能够综合利用多种图像特征，实…

Python 2023年9月15日
0052
Python数据处理及分析详解

一、Python环境搭建与配置 Python作为一门优秀的编程语言，受到很多程序员和编程爱好者的青睐。近年来，Python还在办公领域大展拳脚，许多白领纷纷加入了学习Python的…

Python 2023年7月31日
0046
Go语言学习——函数递归、类型别名和自定义类型

递归 package main import "fmt" // 递归：自…

Python 2023年6月10日
0052
django笔记第七节

1打开myapp/urls.py文件，将其修改成下面的样子：每个类视图都有一个as_view()方法，用于在urlconf(也就是上图中的urlpatterns)中使用。这个方法会…

Python 2023年8月4日
0040
45-pytest-pytest.main()使用

pytest.main使用 * – + 前言 + pytest.main() + 参数运行 + 指定测试用例 + 指定plugins参数前言前面一直使用命令行运行p…

Python 2023年9月12日
0035
【pytest官方文档】解读fixtures – 4. 一次请求多个fixtures、fixtures被多次请求

跟着节奏继续来探索fixtures的灵活性。在测试函数和fixture函数中，每一次并不局限于请求一个fixture。他们想要多少就可以要多少。下面是另一个简单的例子: impo…

Python 2023年9月14日
0046
完美解决一切python报错Cannot find reference ‘xxx‘ in ‘xxxxx‘，详细步骤

完美解决一切python报错Cannot find reference ‘xxx’ in ‘xxxxx’，详细步骤今天开始正式开始…

Python 2023年8月2日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30