网络社区划分的算法分类（2）

2023年7月17日上午6:27 • 人工智能 • 阅读 118

NP-hard问题

介绍 NP困难之前要说到P问题和NP问题， P问题是在多项式时间内可以被解决的问题，而 NP问题是在多项式时间内可以被验证其正确性的问题。 NP困难（ NP-hardness, non-deterministic polynomial-time hardness）问题是计算复杂性理论中最重要的复杂性类之一。如果所有NP问题都可以多项式时间归约到某个问题，则称该问题为NP困难。

进化算法

进化算法（英语：Evolutionary Algorithm ）是人工智能中进化计算的子集。进化算法启发自生物的演化机制，模拟繁殖、突变、遗传重组、自然选择等演化过程，对优化问题的候选解做演化计算的算法。

遗传算法

以遗传算法为例，其工作步骤可概括为：

（1）对工作对象——字符串用二进制的0/1或其它进制字符编码。

（2）根据字符串的长度L，随即产生L个字符组成初始个体。

（3） 计算适应度。适应度是衡量个体优劣的标志，通常是所研究问题的目标函数。

（4）通过复制，将优良个体插入下一代新群体中，体现”优胜劣汰”的原则。

（5）交换字符，产生新个体。交换点的位置是随机决定的

（6）对某个字符进行补运算，将字符1变为0，或将0变为1，这是产生新个体的另一种方法，突变字符的位置也是随机决定的。

（7）遗传算法是一个反复迭代的过程，每次迭代期间，要执行 适应度计算、复制、交换、突变等操作，直至满足终止条件。

经典数据集

空手道俱乐部网络
海豚社会关系网络
美国大学生橄榄球联赛网络
Lesmis网络（《悲惨世界》）
PGP网络
纽曼科学合作网
Facebook社交网络数据集
DBLP合作网络和标注数据社区（合著者关系网）
谷歌网络图

人工数据集

GN基准网络
LFR基准网络

评价指标

传统基于图分割和谱分析的社区发现算法

1.Kernighan-Lin算法（KL算法）

交换不同社区中的节点，找到使割集规模变化量最大的顶点对

2.谱划分

基于图聚类的社区发现算法

1.基于划分的方法

2.基于层次的方法

计算每对节点间相似度

3.基于密度的方法

主要思想：只要邻近区域的密度（对象或者数据点的数目）超过了某个阈值，就继续聚类。

网络社区划分的算法分类

分裂层次方法的一般步骤：

采用某种度量计算节点相似度矩阵边的介数
删除相似度最低的边或介数最大的边
重新计算剩余网络的节点相似度矩阵边的介数
重复步骤和直到得到个非连通子图为网络的节点数目

凝聚层次策略的一般步骤:

把n个节点看成n类
计算节点(或节点集合)间的相似性矩阵
选择相似度最大的两个节点(或节点集合)合并为一类
重复步骤2和3直到最后所有节点组成一个大类

多目标优化

将传统的模块度函数划分为两部分作为两个互补的指标进行优化
模块度指标再加上其他评价标准优化

单目标优化——模块度最优化算法

1.基于K派系过滤的社团检测（基于物理模型）

2（聚合思想的算法）

2.1)基于fastgreedy算法的社团检测（模块度增量）

该算法的三个名称：CNM=fastgreedy=fastmodularity

算法原理：该算法以贪婪地最大化图的模块度的方式将单个节点合并到社区中。可以证明，如果没有合并可以增加当前的模块度，则算法可以停止，因为无法进一步增加.

(1) 初始时将每个节点看作一个社团，每个社团中只有一个节点。

(2) 计算任意两社团合并对应Q值的增量，选择使Q值 增加幅度最大的社团进行合并。

(3) 重复步骤(2)直到任意两社团合并都不能使Q值继续增加，Q值达到峰值。

该算法的性能优势：据说该算法在 稀疏图上几乎以线性时间运行。

该算法存在的问题：Q最大值不一定是全局最优，可能是局部最优。

2.2)快速模块度优化算法——BGLL算法*

Louvain (BGLL) 算法[8]是一个基于模块度最优化的启发式算法，算法两层迭代，外层的迭代是自下而上的凝聚法，内层的迭代是凝聚法加上交换策略，避免了单纯凝聚方法的一个很大的缺点(两个节点一旦合并，就没法再分开)。

算法步骤：

Step1 每一个点初始时被看作一个社团, 按一定次序依次遍历每一个顶点.

对每一个顶点i ，考虑将 i 移至其邻居顶点 j 的社团中模块度的变化ΔQ 。

如果 ΔQ>0，将顶点i 移至使得 ΔQ变化最大的顶点的社团中;

否则，顶点 i 保持不动。重复这个过程，直到任何顶点的移动都不能使模块度增大。

Step2 将step1得到的每一个社团看作一个新的顶点，开始新的一轮迭代，直到模块度不再变化。

该算法简单、直观，容易实现；速度快，并且效果也很好。综合效率和效果两方面考虑，该算法应该是目前最好的方法之一。

2.3)MSG-VM算法*

（直接寻优算法）

极值优化EO算法

逐步达到最优

1.将网络划分为两个社区为目标，以顶点适合度判别需要调整的顶点。通过调整顶点属性，最后划分达到最优

2.再逐步增加社区

主要思想类似于生物系统演化中的断续平衡问题，之后用离散和连续的NPC问题，解决如图分割、伊辛模型、原子最优团簇结构等问题。

3.基于GN算法的社团检测（切割最大边介数）（分裂思想的算法）

算法基本思想：如果两个社区只是由少数几条边连接，那么两个社区之间的路径都要经过这几条边中的一条，因此边介数（edge betweenness）会很大。利用边介数的概念， 通过不断地切断边介数最大的边，获得层次性的社团结构。

算法的基本流程：

(1) 计算网络中每条边的边介数；

(2) 找出边介数最大的边，并将其移除；

(3) 重新计算网络中剩余各条边的边介数；

(4) 重复(2)和(3)步，直到网络中所有边都被移除，获得 系统树图；

(5) 按照 模块度函数Q值最大的原则，对系统树图进行切割，获得社区划分。

4.基于标签传播label propagation的社团检测LPA（标签传染：邻居节点最多标签）

算法基本原理：

1.为网络中每个节点分配一个不重复的 标签label。

2.在每次迭代过程中，节点根据其所有邻居节点中出现次数最多的 _label_更新自身label。如果最佳候选label超过一个，则在其中随机选择。

3.具有相同label的节点被 _归入_同一个社区。

算法性能优势：在大多数情况下可以 快速收敛。

算法性能缺陷：迭代的结果有可能 不稳定，尤其在不考虑连边的权重时，如果社区结构不明显或者网络规模比较小时，有可能所有的节点都被归入同一社区。

标签传播算法尽管速度快，但是效果并不太理想。

5.基于拉普拉斯矩阵的特征向量Leading eigenvector的社团检测**

算法基本原理：

拉普拉斯矩阵L = 度矩阵（degree matrix）D – 邻接矩阵（adjacency matrix）A

L中最小的特征根总等于0，而L的特征根中0的个数即为无向网络G中社区的个数，因此如果除了最小特征根没有别的特征根为0，则整个网络构成一个整体。

第二小的特征根（或者最小的非零特征根）又叫做代数连通性（algebraic connectivity），其对应的特征向量叫做Fidler vector。

根据Fidler vector特征向量值中元素取值进行社区划分。

6.基于层次聚类multilevel的社团检测（模块度标准）

算法基本原理：

层次聚类为一种 自底向上的算法，初始化时定义每个节点归属于一个分离的社区，根据总体社区划分模块度最大化的原则，以迭代的方式最大化每个节点社区移动所带来的局部贡献。

算法基本过程：

(1) 将每个节点当作一个社区。

(2) 基于 模块度标准决定哪些邻居应该被合并。经过一次迭代之后，一些社区合并为一个社区。

(3) 每个社区被当作一个节点，对其度和连接信息进行统计，基于统计结果再进行下一次迭代合并。

(4) 重复步骤(3)直到网络社区划分对应的总体模块度不能再增加为止。

7.基于community_optimal_modularity算法的社团检测

8.基于随机游走walktrap的社团检测**

P. Pons 和 M. Latapy 2005年提出了基于随机游走的网络社区划分算法，使用两点到第三点的流距离之差来衡量两点之间的相似性，从而为划分社区服务。

算法具体操作步骤：

1.对网络G的邻接矩阵A按行归一化D.^(-1)*A得到概率转移矩阵（transition matrix）P，D是度矩阵。利用P矩阵的 _马可夫性质_可知，它的t次方的元素Pijt就代表着随机游走的粒子经过t步从节点i到j的概率。

2.定义两点ij间的距离如下：其中t是流的步长,k是某一目标节点。步长t必须恰当选择，因为如果t太小，不足以体现网络的结构特征；如果t太大，则Pijt趋近于与j的度数d(j)成正比，出发点i的拓扑信息被抹去。t经验值为2到5之间。

随机游走: 从一个顶点向下一个顶点移动时，以相等的概率来选择当前顶点的一个邻居作为下一个顶点。

基本思想: 社团相对比较稠密的子图，因此在图中进行随机游走时很容易”陷入”一个社团中。

随机游走的过程构成了一个Markov链。图中每一个顶点对应一种状态；不同状态之间的转移概率为

t 步随机游走从 i 到 j 的概率是 Pij 的t次幂

下面我们介绍一个代表性的随机游走算法，叫做Walktrap 算法[7]

9.基于community_spinglass算法的社团检测

10.基于infomap的社团检测（推测随机游走粒子，求’平均流’）

算法核心思想：好的社区划分要令网络上流的 平均描述长度最短。

分析有向加权网络的一个好的视角是观察某类实体（货币、能量、信息）在网络上的流动，即使没有实体流动的数据，也可以根据网络的基本结构来推测随机游走粒子的轨迹，然后对得到的”平均流”进行信息编码。对 “平均流”描述长度最短的编码机制，就对应着对社区的一种最有效划分。

12.K-Means

基本思想是首先找各个社团的”中心点”, 然后 就近分配每个顶点

算法步骤：选取k个点作为 k个社团的初始中心点

Step1. 把每个点分配到最近的中心点所在的社团

Step2. 重新计算中心点，如果中心点不变, stop; 否则, 转 step1.

K-Means算法计算量相对比较大，效果往往还不错，但是使用前要考虑一点：通过各个分量求平均得到的中心点是否有意义，也就是说在你的问题中欧式距离是否有意义。

13. Canopy算法

思想：选择计算代价较低的方法计算相似性，将相似的对象放在一个子集中，这个子集被叫做Canopy,不同Canopy之间可以是重叠的

算法步骤:

Step1 设点集为 S，预设两个距离阈值 T1和 T2（T1>T2）；

Step2 从S中任选一个点P，用低成本方法快速计算点P与所有Canopy之间的距离，将点P加入到距离在T1以内的Canopy中；如果不存在这样的Canopy，则把点P作为一个新的Canopy的中心，并与点P距离在 T2 以内的点去掉；

Step3 重复step2, 直到 S 为空为止。

该算法精度低，但是速度快，常常作为”粗”聚类，得到一个k值，再用k-means进一步聚类，不属于同一Canopy 的对象之间不进行相似性计算。

Original: https://blog.csdn.net/Young_IT/article/details/120874391
Author: Young_IT
Title: 网络社区划分的算法分类（2）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698064/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【python量化】将DeepAR用于股票价格多步概率预测

写在前面 DeepAR是亚马逊提出的一种针对大量相关时间序列建模的预测算法，该算法采用了深度学习的技术，通过在大量时间序列上训练自回归递归网络模型，可以从相关的时间序列中有效地学习…

人工智能 2023年6月25日
0064
【电商】电商供应链产品介绍

电子商务发展到现在，很多人都知道企业很重要的一个竞争力就在供应链，但是供应链到底是啥？网上大部分的文章都是说一些概念，让从业者很难落地执行。本文将结合作者本身的经历谈谈对电商供应链…

人工智能 2023年6月27日
0061
数据挖掘 —— 有监督学习（分类）

数据挖掘 —— 有监督学习（分类） 1. KNN分类算法 2. 决策树分类算法 3. SVM算法简介 4. 分类——集成算法 * 4.1 随机森林参数介绍 4.2 Adaboost…

人工智能 2023年7月1日
0092
KNN算法实现鸢尾花数据集分类

KNN算法实现鸢尾花数据集分类作者介绍数据集介绍 KNN算法介绍用KNN实现鸢尾花分类作者介绍乔冠华，女，西安工程大学电子信息学院，2020级硕士研究生，张宏伟人工智能课…

人工智能 2023年7月1日
0081
基于matlab实现数字图像处理之图像复原

一、实验目的（1）了解图像复原的目的及意义，加深对图像复原的感性认识。（2）熟练掌握逆滤波、维纳滤波图像复原方法。二、实验仪器（软件平台） Matlab 软件三、实验原理 …

人工智能 2023年6月17日
0084
参数估计的均方误差（MSE），偏置（Bias）与方差（Variance）分解，无偏估计

均方误差，偏置和方差都是统计学中非常重要的概念。对于机器学习来说，MSE一般是计算两个东西的MSE，一个是参数估计的MSE，一个是模型预测的MSE。我主要关注的是参数估计的MSE…

人工智能 2023年6月16日
0081
【论文笔记】—低照度图像增强—ZeroShot—RetinexDIP网络—2021-TCSVT

论文介绍题目：RetinexDIP: A Unified Deep Framework for Low-light Image Enhancement DOI: 10.1109…

人工智能 2023年5月28日
0060
数据安全刻不容缓，国产智能化厂商首获SOC 2鉴证报告有何意义?

数据安全刻不容缓，国产智能化厂商首获SOC 2鉴证报告有何意义? 了解SOC 2与ISO 27001的区别，你就知道SOC 2对智能自动化厂商的意义了文/王吉伟要问当前组织对于…

人工智能 2023年6月4日
0099
PySpark数据分析

Spark SQL 是 Apache Spark 用于处理结构化数据的模块。第一步：PySpark 应用程序从初始化开始， SparkSession这是 PySpark 的入口点…

人工智能 2023年7月16日
0066
DUAL-PATH RNN: EFFICIENT LONG SEQUENCE MODELING FOR TIME-DOMAIN SINGLE-CHANNEL SPEECH SEPARATIO

文章目录 1. 简介 2. 模型架构 * 2.1 分段 2.2 块处理 2.3 重叠相加 3. 实验部分 ; 1. 简介 DPRNN提出的依据：因此如果出现超长的语音序列，使用传统…

人工智能 2023年7月14日
0041
mongodb/mongoTemplate.upsert批量插入更新数据的实现

今天来记录一下，项目中使用到的mongoTemplate.upsert，在批量更新数据上的用法。 // mongoTemplate.upsert有三种用法，主要功能是更新数据，如果…

人工智能 2023年7月31日
0050
DCT水印嵌入与提取_(Python Version)

文章目录摘要介绍方法 * 1. 步骤 2. 代码 3. 实验现象水印嵌入相关Link 更新内容-加入攻击以及指标计算参考资料 ; 摘要在变换域进行嵌入水印有更好的鲁棒性…

人工智能 2023年7月6日
0053
基于聚类的图像分割——Python实现

文章目录 0 图像读取 1 算法实现 * 1.1 K-Means 1.2 FCM聚类 1.3 漂移均值 1.4 谱聚类 1.5 Affinity Propagation聚类 1.6…

人工智能 2023年6月17日
0076
JavaWeb项目—— 博客系统

文章目录效果展示 * 1. 创建 maven 项目 2. 设计数据库 3. 封装数据库的操作代码 – 3.1 创建 DBUtil 类 3.2 创建 Blog（代表一篇…

人工智能 2023年7月29日
0049
6d位姿估计—制作自己的LINEMOD数据集过程记录(ObjectDatasetTools)

先说结论，ObjectDatasetTools不好用，开发了一个有效的方法，最后效果连接如下：有效的方法 Original: https://blog.csdn.net/weix…

人工智能 2023年6月18日
0063
Python Pandas读取文件和DataFrame、Series的基本使用

1.读取文件和数据属性的基本查看方法数据类型读取方法csv,tsv,txtpd.read_csv(filepath)excelpd.read_excel(filepath)mys…

人工智能 2023年7月16日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

网络社区划分的算法分类（2）

NP-hard问题

进化算法

遗传算法

经典数据集

人工数据集

评价指标

传统基于图分割和谱分析的社区发现算法

基于图聚类的社区发现算法

多目标优化

单目标优化——模块度最优化算法

1.基于K派系过滤的社团检测 （基于物理模型）

2（聚合思想的算法）

2.1)基于fastgreedy算法的社团检测（ 模块度增量 ）

2.2)快速模块度优化算法——BGLL算法*

2.3)MSG-VM算法*

（直接寻优算法）

极值优化EO算法

3.基于GN算法的社团检测（切割最大边介数） （分裂思想的算法）

4.基于标签传播label propagation的社团检测LPA（标签传染：邻居节点最多标签）

5.基于拉普拉斯矩阵的特征向量Leading eigenvector的社团检测**

6.基于层次聚类multilevel的社团检测（模块度标准）

7.基于community_optimal_modularity算法的社团检测

8.基于随机游走walktrap的社团检测**

9.基于community_spinglass算法的社团检测

10.基于infomap的社团检测（推测随机游走粒子，求’平均流’）

12.K-Means

13. Canopy算法

大家都在看

1.基于K派系过滤的社团检测（基于物理模型）

2.1)基于fastgreedy算法的社团检测（模块度增量）

3.基于GN算法的社团检测（切割最大边介数）（分裂思想的算法）