并查集 ( Disjoint-Set or Union-Find data structure )

2023年6月7日下午8:01 • 数据结构和算法 • 阅读 91

什么是并查集

1.将n个不重复的元素 ( distinct elements ), 分配到几个不相交集合 ( disjoint sets )的应用。

换句话说，一个不相交的集合(disjoint sets)是一组集合，其中任何项都不能出现在一个以上的集合中。
( A disjoint set is a group of sets where no item can be in more than one set. )
一般将最终得到的不相交集合称为组件（ component ）.

并查集 ( Disjoint-Set or Union-Find data structure )

并查集的操作规范

1.符合并查集问题的元素的一些基本特征：

连接没有方向，即a连接b，等同于b连接a.（由此此类问题只需要考虑两个节点 是否连通即可）
连接具有传递性，a连接b，b连接c，等同于a连接c. ( 即所有连接元素处于 同一个集合中或拥有 同一个类别 )

2.基本操作：

  MakeSet(int N);  // initilize N nodes with integer names( 0 to N-1 )
  void Union(int a, int b);  // add connection between a and b
  int Find(int a);  // component identifier for p ( 0 to N-1 )
  boolean Connected(int a, int b)  // return true if a and b are in the same component
  int Count();  // number of components

MakeSet( int n ) 利用数组id[ ]的 整数不重复索引下标来初始化.

利用数组表达并查集

因为并查集的每个元素都是不重复的( distinct element ),所以总是可以利用数组下标[ index ]为整数且互不重复的特性来表达其元素标识(element identifier ).
而每个数组元素对应的值（value）用来表示其元素所在组件标识（ component identifier ），其初始化值由其对应的下标来赋值. ( id[ index ] = index )
[ index ] => element identifier, id[ index ] => component identifier.

  vector<int> id;  // &#x7528;&#x6765;&#x83B7;&#x53D6;&#x7EC4;&#x4EF6;&#x6807;&#x8BC6;&#xFF08;component identifier&#xFF09;
  int Count;  // &#x7EC4;&#x4EF6;&#x6570;&#x91CF;

  MakeSet(int n){
    Count = n;
    id(n);
    for(int i = 0; i < n; i++)
        id[i] = i;
  }
</int>

boolean Connected( int a, int b ) 判定节点a和b是否拥有同一 component index( 即是否处于同一集合中 ).

  boolean Connected(int a, int b){
      return find(a) == find(b);
  }

int Count() 以独立节点个数n初始化component的个数，每进行一次Union()操作，将component的个数减1.

  int count(){
    return Count;
  }

基于快速查询( Quick-Find )下的Find()与Union()操作实现

1.通过数组id[ ]获取节点的速度将非常快速.

int Find(int a) 找到节点a所在component的component identifier.

  int Find(int a){
      return id[a]&#xFF1B;
  }

void Union(int a ,int b) 将a所在集合中的所有同类合并到b的集合中.

  void Union(int a ,int b){
      // &#x627E;&#x5F97;&#x5230;a&#x548C;b&#x7684;&#x5BF9;&#x5E94;component identifier
      int aID = find(a);
      int bID = find(b);
      // &#x5982;&#x4F55;&#x7D22;&#x5F15;&#x503C;&#x76F8;&#x7B49;&#xFF0C;&#x8BF4;&#x660E;&#x5728;&#x540C;&#x4E00;&#x96C6;&#x5408;&#x4E2D;&#xFF0C;&#x76F4;&#x63A5;&#x8FD4;&#x56DE;
      if(aID == bID)  return;
      // &#x5426;&#x5219;&#x5C06;b&#x7684;&#x7D22;&#x5F15;&#x503C;&#x8D4B;&#x503C;&#x7ED9;a&#xFF08;&#x5373;&#x5C06;a&#x5408;&#x5E76;b&#x6240;&#x5728;&#x7684;&#x96C6;&#x5408;&#x540D;&#x79F0;&#x4E0B;&#xFF09;
      for(int i = 0; i < id.size(); ++i)
          if (id[i] == aID) id[i] == bID;
      Count--;
  }

Quick-Find 的缺点

将a所在component中的所有元素合并到b中，涉及到 对数组id[ ]值的修改操作.
意味着需要 对id[ ]数组进行遍历，意味着时间复杂度将几何增加 O(n^2).

基于快速合并( Quick-Union )下的Find()与Union()操作实现

1.为了降低组数修改操作带来的时间复杂度增加，将使用并查集森林( Disjoint-Set Forests ）形式来表达.

依然基于数组结构（id[ ]）下的抽象解释

该结构（Disjoint-Set Forests）意味着id[ ]将采用树(tree )结构，并使用 parent-link表达式.
虽然初始化数据依然采用数组，但可以将每个组数元素其想象成 独立节点.
每个数组元素刚 初始化时，其对应component里只有它自己一个元素，所以其向父节点的连接( parent-link ) 指向它自己( self-link )或Null.

* 每个component拥有其 唯一的根节点 (root )，其父节点是它自己或Null.

利用根节点的唯一性，该component的component identifier使用root节点所对应值.

int Find(int a) 与Quick-Find中的id[ index ]作为compnont identifier不同，这里的id[ index ]可以理解为[ index ]的联通路径(father identifier).
如同一根带箭头的线段，虽然在实际应用中常常省略，因为最终都会连向根节点.

  int Find(int a){
      while(a != id[a]) a = id[a];  // &#x6CBF;&#x7236;&#x8282;&#x70B9;&#x6500;&#x722C;&#xFF0C;&#x76F4;&#x5230;&#x6839;&#x8282;&#x70B9;
      return a;
  }

void Union(int a ,int b) 将a的根节点指向b的根节点（即合并后的集合根节点为b，其值作为component identifier）.

  void Union(int a ,int b){
      int aRoot = Find(a);
      int bRoot = Find(b);
      if(aRoot == bRoot) return;

      id[aRoot] = bRoot;  // &#x5C06;a&#x7684;&#x6839;&#x8282;&#x70B9;&#xFF0C;&#x672C;&#x6765;&#x662F;&#x6307;&#x5411;&#x81EA;&#x5DF1;&#x7684;&#x7BAD;&#x5934;&#xFF0C;&#x6307;&#x5411;&#x4E86;b&#x7684;&#x6839;&#x8282;&#x70B9;
      Count --;

2.Find()在Quick-Union中扮演着重要角色.

可以看到，虽然Quick-Union不用遍历数组，但是Find()中的向父节点攀爬过程，如果遇到最坏的情况，即链式结构，其时间复杂度也接近于遍历.
并且Union()和Connect()中都会使用到Find()，所以其总的时间复杂度由Find()起到决定作用，而Find()的复杂度又由树结构的高度( height )所影响.

衡量树的名词定义

大小( size ): 表示一棵树含有节点的总数.
深度( depth ): 表示一个节点到其根节点所进过的连接路径总数.
高度( height ): 表示一棵树其中节点深度的最大值.

提高1：在Union()阶段按rank或者size优化的Weighted Quick-Union

1.维护另一个数组来追踪树的大小，在合并时，总是将较小的树合并到较大的树中去，以此来平衡整个树的高度( height ).

初始化时增加维护树大小的数组sz[ ]，并将其初始化.

  vector<int> sz;  // size of component for roots
  MakeSet(int n){
      sz(n);
      for(int i = 0; i < n ; ++i) sz[i] = 1;
  }
</int>

在合并时，将size较小的树合并到较大中去，并将两者size的相加计入到大树中.

  void Union(int a ,int b){
      int aRoot = Find(a);
      int bRoot = Find(b);
      if(aRoot == bRoot) return;

      if(sz[aRoot] < sz[bRoot]){
          id[aRoot] = bRoot;
          sz[bRoot] += sz[aRoot];
      }
      else {
          id[bRoot] = aRoot;
          sz[aRoot] += sz[bRoot];
      }
      Count --;
  }

提高2: 在Find()阶段使用路径压缩(Path Compression)优化的Weighted Quick-Union

1.不完全压缩：让查询过程中经历的”部分结点”指向它的父亲结点的父亲结点。相对于「完全压缩」而言，压缩没有那么彻底。

只需要在Weighted Quick-Union的Find（）中增加一行代码即可.

int Find(int a){
      while(a != id[a]){
          id[a] = id[id[a]];
          a = id[a];
      }
      return a;
  }

2.完全压缩: 让查询根结点的过程中，沿途经过的”所有结点”指向都指向根结点.

int Find(int a){
      if(a != id[a]){
          id[a] = Find(id[a]);
      }
      return id[a];
  }

小结

1.各方法时间复杂度分析:

在实际大型问题应用中， Weighted Quick-Union with Path Compression(不完全压缩)非常接近线性时间复杂度，因此成为常用的优化方法.

写在最后

作为初学者，我以为算法的学习还是应该以思维训练为主，以此来加深对编程思想的理解.如果仅仅只是当做一个manual来套路化、模板化的使用，虽然能快速入门，不过应该是很难走更远的.
写这篇文章之前我在leecode上，google上，看了诸多博主写的关于并查集的文章后. 初衷是想走捷径，快速掌握，不过在实际问题应用分析时，却发现有许多不易察觉的细节难以把控.
思来想去还是觉得没有从根上去理解整个算法的核心思想，于是又回到《算法第四版》经典书籍的学习中，搭建起骨架，在遇到难以理解的细节分支，再去google上寻找后来人的各种解读，从而加深理解.
经典书籍只所以经典，是因为其经历了时间的考验，其整个思维体系的完整性是一般创作者难以企及的.

主要参考资料

《算法第四版》第 1 章第 5 节.
Leecode 《零起步学算法》.

Original: https://www.cnblogs.com/Dy2MoRaw/p/15899723.html
Author: Dy2MoRaw
Title: 并查集 ( Disjoint-Set or Union-Find data structure )

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/583806/

转载文章受原作者版权保护。转载请注明原作者出处！

数据结构和算法

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Weights Assignment For Tree Edges

题目：（我的题目很长，你忍一下……）题目分析：这道题目的体面比较复杂，先是讲了一下树是怎样的一个结构，并且告诉我们在这里，他是以什么样的一种方式描述一…

数据结构和算法 2023年6月7日
0081
P4388 付公主的矩形题解

简要题意求有多少矩形对角线经过的方格数为给定的 (n)，其中 (R \times C) 和 (C \times R) 视为同一个矩形。解题思路首先考虑怎么求一个已知矩形对角线…

数据结构和算法 2023年6月7日
0068
题解0013：字典树模板（洛谷）-uf0_金币灰黄

题目链接： https://www.luogu.com.cn/problem/P8306 题目描述：给定 n 个模式串和 m 次询问，每次询问给定一个文本串，请回答这个文本串是多少…

数据结构和算法 2023年6月12日
0085
空间点索引算法-GeoHash

介绍 GeoHash是一种空间地址编码方法，能够把二维的空间经纬度数据编码成一个字符串。一个字符串代表某一矩形区域，矩形区域内所有的点都共享相同的GeoHash字符串。相当于给区…

数据结构和算法 2023年6月7日
0094
牛客练习赛87

(考时脑壳抽了思路其实很简单容易知道最终序列长度为(n-k)如果不操作，最小的中位数，即为位置为((n-k+1)/2) 我们把删去的数全都往中位数右边的数加即可，中位数不变(n…

数据结构和算法 2023年6月7日
00104
Chapter 7 Classes

The fundamental ideas behind classes are data struaction and encapsulation. Key Concept: D…

数据结构和算法 2023年6月7日
0075
pip国内多源

pip国内多源，查看命令 pip改国内源可用用命令 pip3 config list 查看当前源阿里云http://mirrors.aliyun.com/pypi/simple…

数据结构和算法 2023年6月7日
0096
【模板】负环（SPFA/Bellman-Ford）/洛谷P3385

题目链接 https://www.luogu.com.cn/problem/P3385 题目大意给定一个 (n) 个点有向点权图，求是否存在从 (1) 点出发能到达的负环。题目…

数据结构和算法 2023年6月7日
00123
NavMesh-areaMask, cost

这2个在Navigation的Areas页签设置假设有黑色的cat和白色的dog同时要从原点，走到对面ground2上去，cat只能走bridge，dog可以走bridge和wa…

数据结构和算法 2023年6月7日
0073
Dreamoon Likes Coloring 【CF 1329 A】

传送门思路：”Dreamoon will choose a number p i pi from range 1 ,n −l i +1 and will paint …

数据结构和算法 2023年6月7日
0087
循环链表（约瑟夫环）思路及实现

单链表的尾节点指向首节点，即可构成循环链表约瑟夫问题：有 N 个人围成一圈，每个人都有一个编号，编号由入圈的顺序决定，第一个入圈的人编号为 1，最后一个为 N，从第 K (1 O…

数据结构和算法 2023年6月12日
0081
HTTP Web安全

验证安全机制会话管理机制 SQL注入原理 SELECT * FROM test.user WHERE username=” or 1=’1′ and password=’any…

数据结构和算法 2023年6月8日
0087
AtCoder Beginner Contest 262 题解

题解:循环判断即可 #include using namespace std; void solve() { int n; cin>>n; for(int i=n;;i…

数据结构和算法 2023年6月12日
0069
全球开发数据源（转）

☝️源地址☝️ 开放数据源（一），全球地理、自然、经济数据等。世界银行,数据网站: gapminder,编译数据源,包括世界卫生组织和世界银行覆盖经济、医疗和社会统计数据。美国…

数据结构和算法 2023年6月7日
0079
线性表的基本操作

在粗略学习一遍数据结构之后，压根就没有搞懂其中的逻辑，后来了明白学习数据结构的重要性，打算再利用一大段空闲时间重新拾起数据结构的学习。还站在IT行业门口的我，打算一步一步爬进去，跪…

数据结构和算法 2023年6月7日
0059
POJ 1064 Cable master（浮点数二分精度处理）

题目：给出n棵木头，现在要求将木头裁成k个长度相同的小木头，请问这k个小木头的最大长度是多少。裁出来后不支持拼接。所有长度都是小数点后两位，要求输出答案也是小数点后两位。思…

数据结构和算法 2023年6月12日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

并查集 ( Disjoint-Set or Union-Find data structure )

什么是并查集

1.将n个 不重复的元素 ( distinct elements ), 分配到几个 不相交集合 ( disjoint sets )的应用。

并查集的操作规范

1.符合并查集问题的元素的一些基本特征：

2.基本操作：

利用数组表达并查集

基于快速查询( Quick-Find )下的Find()与Union()操作实现

1.通过数组id[ ]获取节点的速度将非常快速.

Quick-Find 的缺点

基于快速合并( Quick-Union )下的Find()与Union()操作实现

1.为了降低组数修改操作带来的时间复杂度增加，将使用并查集森林( Disjoint-Set Forests ）形式来表达.

依然基于数组结构（id[ ]）下的抽象解释

2.Find()在Quick-Union中扮演着重要角色.

衡量树的名词定义

提高1：在Union()阶段按rank或者size优化的Weighted Quick-Union

1.维护另一个数组来追踪树的大小，在合并时，总是将较小的树合并到较大的树中去，以此来平衡整个树的高度( height ).

提高2: 在Find()阶段使用路径压缩(Path Compression)优化的Weighted Quick-Union

1.不完全压缩：让查询过程中经历的”部分结点”指向它的父亲结点的父亲结点。相对于「完全压缩」而言，压缩没有那么彻底。

2.完全压缩: 让查询根结点的过程中，沿途经过的”所有结点”指向都指向根结点.

小结

1.各方法时间复杂度分析:

写在最后

主要参考资料

大家都在看

1.将n个不重复的元素 ( distinct elements ), 分配到几个不相交集合 ( disjoint sets )的应用。