聚类数k的确定(间隔统计量,轮廓系数,Canopy算法)及Kmeans++聚类，高斯混合聚类，密度聚类，层次聚类的原理及python实现(文末附有相关代码)

2023年5月31日上午7:25 • 人工智能 • 阅读 83

聚类数k的确定及聚类方法的python实现[文末]

1.引入
2.聚类的数目c l u s t e r s = k clusters = k c l u s t e r s =k 的确定
*
2.1肘部法则（Elbow Method）
2.2间隔统计量(Gap Statistic)
2.3轮廓系数(Silhouette Coefficient)
2.4 Canopy算法
3.聚类方法
*
3.1 K-means聚类
3.2 K-means++聚类
3.3 高斯混合聚类
–
3.4 密度聚类(DBSCAN)
–
3.5 层次聚类(AGNES)
–
4. 终极武器
*
4.1 python代码

1.引入

针对不用的方法用不同性质的数据集，这里给出s k l e a r n sklearn s k l e a r n文档中的一幅聚类效果图。相关文档请点击。后文是结合西瓜书以及相关文献整理所得。

聚类数k的确定(间隔统计量,轮廓系数,Canopy算法)及Kmeans++聚类，高斯混合聚类，密度聚类，层次聚类的原理及python实现(文末附有相关代码)

; 2.聚类的数目 c l u s t e r s = k clusters = k c l u s t e r s =k 的确定

由于聚类分析是属于 无监督学习范畴，我们不知道原始数据应该分为几类较为准确(或更符合常理)。以下几种方法推荐：

2.1肘部法则（Elbow Method）

随着分类数目k k k的增加，所有类中数据x i x_i x i 与类中心u j u_j u j 的距离和会减小，这是显然的，减小趋势会出现 先快后慢的特点，我们需要做的是选择减小率最大的k 0 k_0 k 0 作为分类数目。Elbow Method的计算公式如下
D k = ∑ j = 1 k ∑ i ∈ C j d i s t ( x i , u j ) , D_k = \sum_{j = 1}^{k}\sum_{i\in C_j} dist(x_i,u_j),D k =j =1 ∑k i ∈C j ∑d i s t (x i ,u j ),
这里d i s t ( ⋅ , ⋅ ) dist(\cdot,\cdot)d i s t (⋅,⋅)表示闵可夫斯基距离
d i s t ( x i , x j ) = ( ∑ u = 1 n ∣ x i u − x j u ∣ p ) 1 p dist(x_i,x_j) = ( \sum_{u = 1}^{n}|x_{iu}-x_{ju}|^p)^{\frac{1}{p}}d i s t (x i ,x j )=(u =1 ∑n ∣x i u −x j u ∣p )p 1
其中p = 2 p =2 p =2时为我们熟悉的欧式距离。如下图中当k = 3 k=3 k =3时为最佳类目。详细数据代码参见文末。

; 2.2间隔统计量(Gap Statistic)

根据肘部法则选择最合适的K值有时并不是那么清晰，因此斯坦福大学的Robert等教授提出了Gap Statistic方法。
Gap Statistic的定义为:
G a p n ( k ) = E n ∗ ( l o g ( D k ) ) − l o g ( D k ) Gap_n(k) = E_n^(log(D_k)) – log(D_k)G a p n (k )=E n ∗(l o g (D k ))−l o g (D k )
这里的E n ∗ ( l o g ( D k ) ) E_n^(log(D_k))E n ∗(l o g (D k ))是指l o g ( D k ) log(D_k)l o g (D k )的期望，通常通过蒙特卡洛(Monte Carlo)模拟产生，我们在样本里所在的矩形区域中（高维的话就是立方体区域）按照均匀分布随机地产生和原始样本数一样多的随机样本，并对这个随机样本做聚类，从而得到一个Dk。如此往复多次，通常20次，我们可以得到20个l o g D k log Dk l o g D k。对这20个数值求平均值，就得到了E n ∗ ( l o g D k ) E_n^(logDk)E n ∗(l o g D k )的近似值。最终可以计算Gap Statisitc。而Gap statistic取得最大值所对应的K就是最佳的k。Gap Statistic的基本思路是:
E n ∗ ( l o g D k ) = ( 1 / B ) ∑ b = 1 B log ⁡ ( D k b ∗ ) E_n^(logDk) = (1/B)\sum_{b=1}^{B}\log(D^*_{kb})E n ∗(l o g D k )=(1 /B )b =1 ∑B lo g (D k b ∗)
其中B B B是采样次数，如下选择最优的k k k:

w = ( 1 / B ) ∑ b = 1 B log ⁡ ( D k b ∗ ) s k = 1 + B B ( 1 / B ) ∑ b = 1 B log ⁡ ( D k b ∗ − w ) 2 \begin{aligned} w & = (1/B)\sum_{b=1}^{B}\log(D^{kb})\ s_k & = \sqrt{\frac{1+B}{B}}\sqrt{(1/B)\sum{b=1}^{B}\log(D^{kb} -w)^2} \end{aligned}w s k =(1 /B )b =1 ∑B lo g (D k b ∗)=B 1 +B (1 /B )b =1 ∑B lo g (D k b ∗−w )2
选择满足
G a p k ≥ G a p k + 1 − s k + 1 Gap_k \geq Gap{k+1}-s_{k+1}G a p k ≥G a p k +1 −s k +1
的最小k k k作为最优的聚类数目。
从下图中显然可以看出当k k k取3的时候是最优的。

2.3轮廓系数(Silhouette Coefficient)

轮廓系数是以分类后的紧密程度去评判一个分类器的好坏：即离自己所在类较近，也要离其他类较远，这是显然的一个情况。由于这里需要涉及到另类，故至少分类为两类。轮廓系数计算公式如下
S ( x i ) = b ( x i ) − a ( x i ) max ⁡ { a ( x i ) , b ( x i ) } S(x_i) = \frac{b(x_i)-a(x_i)}{\max{a(x_i),b(x_i)}}S (x i )=max {a (x i ),b (x i )}b (x i )−a (x i )为样本数据x i ∈ X k 0 x_i \in \mathcal{X}{k_0}x i ∈X k 0 的单一样本轮廓系数，a ( x i ) a(x_i)a (x i )表示X k 0 \mathcal{X}{k_0}X k 0 所属类中与其他样本的平均距离，
a ( x i ) = 1 ∣ X k 0 ∣ − 1 ∑ j ≠ i , j ∈ X k 0 d i s t ( x i , x j ) a(x_i) = \frac{1}{|\mathcal{X}{k_0}|-1}\sum{j\neq i,j\in \mathcal{X}{k_0}}dist(x_i,x_j)a (x i )=∣X k 0 ∣−1 1 j =i ,j ∈X k 0 ∑d i s t (x i ,x j )
b ( x i ) b(x_i)b (x i )表示x i x_i x i 与其他类的样本平均值的 最小值，
b ( x i ) = min ⁡ k t { 1 ∣ X k t ∣ ∑ j ∈ X k t d i s t ( x i , x j ) } b(x_i) =\min{k_t} {\frac{1}{|\mathcal{X}{k_t}|}\sum{j\in \mathcal{X}{k_t}}dist(x_i,x_j)}b (x i )=k t min {∣X k t ∣1 j ∈X k t ∑d i s t (x i ,x j )}
聚类总体的轮廓系数S S S为所有样本的轮廓系数的均值，
S = 1 n ∑ i = 1 n S ( x i ) , x i ∈ X S = \frac{1}{n}\sum{i=1}^{n} S(x_i),\quad x_i \in \mathcal{X}S =n 1 i =1 ∑n S (x i ),x i ∈X
如何通过轮廓系数去表达紧密程度呢，变换S ( x i ) S(x_i)S (x i )可得
S ( i ) = { 1 − a ( i ) b ( i ) a ( i ) < b ( i ) 0 a ( i ) = b ( i ) b ( i ) a ( i ) − 1 a ( i ) > b ( i ) S(i)=\left{\begin{array}{cc} 1-\frac{a(i)}{b(i)} & a(i)S (i )=⎩⎪⎨⎪⎧1 −b (i )a (i )0 a (i )b (i )−1 a (i )b (i )
当分类越好时，即a ( x i ) < b ( x i ) a(x_i)的时候，S ( x i ) S(x_i)S (x i )会向1靠，否则，S ( x i ) S(x_i)S (x i )会靠向-1。故S S S越靠向1越能说明分类较好。与2.2相同的数据得到的效果如下，

; 2.4 Canopy算法

之前的三种方法虽然可以选出相对最优的k k k值，但是这些方法都是属于”事后”判断的，而Canopy算法的作用就在于它是通过事先粗聚类的方式，为聚类算法确定初始聚类中心个数和聚类中心点。Canopy聚类最大的特点是 不需要事先指定k值(即clustering的个数)，因此具有很大的实际应用价值。Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用Canopy聚类先对数据进行”粗”聚类，得到k k k值，以及大致的k k k个中心点，再使用K-Means进行进一步”细”聚类。具体步骤如下

给定样本列表X = { x 1 , ⋯ , x n } \mathcal{X} = {x_1,\cdots,x_n}X ={x 1 ,⋯,x n }以及初始距离阈值为T 1 , T 2 T_1,\ T_2 T 1 ,T 2 ,且T 1 > T 2 T_1>T_2 T 1 >T 2 (T1、T2可自己定义)；
从列表X \mathcal{X}X中任取一点P P P，计算P P P到所有聚簇中心点的距离(如果不存在聚簇中心，那么就把点P P P作为一个新的聚簇)，并选出与聚类中心最近的距离D ( P , x j ) D(P,x_j)D (P ,x j ) ；
如果距离D < T 1 D，表示该节点属于该聚簇，添加到该聚簇列表中。
如果距离D < T 2 D，表示该节点不仅仅属于该聚簇，还表示和当前聚簇中心点非常近，所以将P P P从列表X \mathcal{X}X中删除。
如果距离D > T 1 D>T_1 D >T 1 ，那么数据点P P P形成一个新的聚簇。
重复步骤2-5，直到列表X \mathcal{X}X为空时结束循环。

效果图如下，该方法要选择一个合适的T 1 , T 2 T_1,\ T_2 T 1 ,T 2 。个人觉得这就是导致Canopy算法之所以不如其他算法火的原因，虽然Canopy算法可以提供一个相对合适的k k k值，但这需要T 1 , T 2 T_1,\ T_2 T 1 ,T 2 取得相对合适，这里你自己细品。

如下是之前数据选择T 1 = 2 3 d i s t ( m i n ( x ) , m a x ( x ) ) , T 2 = 1 2 T 1 T_1 = \frac{2}{3}dist(min(x),max(x)),\ T_2 = \frac{1}{2}T_1 T 1 =3 2 d i s t (m i n (x ),m a x (x )),T 2 =2 1 T 1 ,其中
m i n ( x ) = 每个特征最小值组成的新向量 m a x ( x ) = 每个特征最大值组成的新向量 \begin{aligned} min(x) & =\text{每个特征最小值组成的新向量}\ max(x) & = \text{每个特征最大值组成的新向量} \end{aligned}m i n (x )m a x (x )=每个特征最小值组成的新向量=每个特征最大值组成的新向量
这里你们需要自己去设计，我只是给出一个思路；若需要经常处理，可以将数据样本X \mathcal{X}X归一化后进行操作，来方便T 1 , T 2 T_1,T_2 T 1 ,T 2 的选择。按上述操作得到的效果图如下

3.聚类方法

3.1 K-means聚类

给定样本集合X = { x 1 , ⋯ , x n } \mathcal{X}={x_1,\cdots,x_n}X ={x 1 ,⋯,x n },K-means算法是最小化误差函数
min ⁡ E = ∑ i = 1 k ∑ x ∈ X i ∥ x − u i ∥ 2 2 \min E = \sum_{i=1}^{k}\sum_{x\in\mathcal{X}_i}\|x-u_i\|_2^2 min E =i =1 ∑k x ∈X i ∑∥x −u i ∥2 2
其中u i u_i u i 是第i i i簇的中心(均值)，K-means算法主要分为两步：

遍历X \mathcal{X}X,确定每个x x x的类别，
更新每一类的簇中心u i u_i u i ，
若u i u_i u i 没有改变则退出，否则循环2-3。

不足的地方在于初始的簇中心是X \mathcal{X}X中任选的k k k个数据点，使得最小化过程中容易陷入局部最小值中而停止更新簇中心，故有下面的K-means++ 算法。

3.2 K-means++聚类

与K-means不同的地方在于我们不任取簇中心，如果仅仅是完全随机的选择，有可能导致算法收敛很慢，或出现局部最小的情况；K-Means++算法就是对K-Means随机初始化质心的方法的优化。参考了前辈们的一些优化，修改了其中的一些表示错误

从样本数据X \mathcal{X}X中随机选择一个样本作为第一个簇中心u 1 u_1 u 1 ,
f o r j = 2 , 3 , ⋯ , k for\ j=2,3,\cdots,k f o r j =2 ,3 ,⋯,k
遍历X \mathcal{X}X，计算每一个样本x x x到 已选择的簇中心的’距离’D ( x ) D(x)D (x )，计算方法如下
D ( x ) = min ⁡ 1 ≤ r ≤ j − 1 ∥ x − u r ∥ 2 2 D(x) = \min_{1\leq r\leq j-1} \|x-u_r\|_2^2 D (x )=1 ≤r ≤j −1 min ∥x −u r ∥2 2
从中选择’距离’相对较远的样本点作为新的簇中心u i u_i u i ,即
u j = a r g max ⁡ i D ( x i ) u_j =arg \max_{i} D(x_i)u j =a r g i max D (x i )
这么做的好处是使得初始各个簇中心离得相对的远，避免出现局部极小的情况出现。下图就是由于初始簇中心不好，陷入局部极小的情况中，红色点为停止迭代后的簇中心。(数据仅为展示效果而随机生成)

若采用Kmeans++选取初始簇中心，得到的结果如下图所示，显然可以避免局部极小的情况出现。

; 3.3 高斯混合聚类

高斯混合模型是一个假设所有的数据点都是生成于有限个带有未知参数的高斯分布所混合的概率模型。我们可以将这种混合模型看作是 k-means 聚类算法的一种扩展使用 (注:kmeans必须要求cluster的模型是圆形的,不能是椭圆的) ，它包含了数据的协方差结构以及隐高斯模型的中心信息。
若采用sklearn中自带的GaussianMixture模块来实现，可以用其自带的 BIC（Bayesian Information Criterion，贝叶斯信息准则）来评估数据中聚类的数量。

3.3.1 BIC准则和AIC准则

AIC信息准则(Akaike information criterion)可以权衡所估计模型的复杂度和此模型拟合数据的优良性。
A I C = − 2 ln ⁡ L + 2 k AIC = -2\ln L+2k A I C =−2 ln L +2 k
其中k k k为参数数量，L L L是似然函数。找出最小AIC值对应的模型作为选择对象。
BIC准则(Bayesian Information Criterions)主要加大了惩罚项，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。
B I C = k ln ⁡ n − 2 ln ⁡ L BIC = k\ln n -2\ln L B I C =k ln n −2 ln L
其中n n n为样本数量，两者中的L L L 均为模型的拟合程度。这一块的内容有兴趣的同学可以另行学习。

3.3.2 高斯混合聚类的推导

注：本节阅读需要有概率论和最优化相关的基础。
假设所有数据点符合一个高斯分布，其密度函数
p ( x ∣ μ , Σ ) = 1 ( 2 π ) n 2 ∣ Σ ∣ 1 2 exp ⁡ ( − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) ) p(x|\mu,\Sigma) = \frac{1}{(2\pi)^{\frac{n}{2}}|\Sigma|^{\frac{1}{2}} } \exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))p (x ∣μ,Σ)=(2 π)2 n ∣Σ∣2 1 1 exp (−2 1 (x −μ)T Σ−1 (x −μ))
则定义如下的 高斯混合分布
p M ( x ) = ∑ i = 1 k α i p ( x ∣ μ i , Σ i ) p_{\mathcal{M}}(x) = \sum_{i=1}^{k}\alpha_ip(x|\mu_i,\Sigma_i)p M (x )=i =1 ∑k αi p (x ∣μi ,Σi )
其中α i > 0 \alpha_i>0 αi >0为第i i i个混合系数，且有∑ i = 1 k α i = 1 \sum_{i=1}^k \alpha_i=1 ∑i =1 k αi =1。这里故共有3 k 3k 3 k个参数，α i , μ i , Σ i \alpha_i,\ \mu_i,\Sigma_i αi ,μi ,Σi 。设z j ∈ { 1 , 2 , ⋯ , k } z_j\in{1,2,\cdots,k}z j ∈{1 ,2 ,⋯,k }表示生成样本x j x_j x j 的高斯混合成分， 先验分布有p ( z j = i ) = α i p(z_j = i) = \alpha_i p (z j =i )=αi ，其 后验分布为
p M ( z j = i ∣ x j ) = p ( z j = i ) p M ( x j ∣ z j = i ) p M ( x j ) = α i p M ( x j ∣ μ i , Σ i ) ∑ l = 1 k α l p ( x j ∣ u l , Σ l ) . \begin{aligned} p_{\mathcal{M}}(z_j = i|x_j) & = \frac{p(z_j = i)p_{\mathcal{M}}(x_j|z_j = i) }{p_{\mathcal{M}}(x_j)} \ & = \frac{\alpha_i p_{\mathcal{M}}(x_j|\mu_i,\Sigma_i) }{\sum_{l=1}^{k}\alpha_lp(x_j|\,u_l,\Sigma_l)} \end{aligned}.p M (z j =i ∣x j )=p M (x j )p (z j =i )p M (x j ∣z j =i )=∑l =1 k αl p (x j ∣u l ,Σl )αi p M (x j ∣μi ,Σi ).

简写为γ j i , i = 1 , ⋯ , k \gamma_{ji},i = 1,\cdots,k γj i ,i =1 ,⋯,k。每个样本x j x_j x j 所属的类为λ j \lambda_j λj
λ j = arg ⁡ max ⁡ i ∈ { 1 , ⋯ , k } γ j i \lambda_j = \arg \max_{i\in{1,\cdots,k}} \gamma_{ji}λj =ar g i ∈{1 ,⋯,k }max γj i
采用极大似然估计求解参数α i , μ i , Σ i \alpha_i,\ \mu_i,\Sigma_i αi ,μi ,Σi ，这一块的内容可以查看 概率论或 最优化理论，其对数似然函数
max ⁡ L = ln ⁡ ( ∏ j = 1 n p M ( x j ) ) = ∑ j = 1 n ln ⁡ ( ∑ i = 1 k α i p ( x ∣ μ i , Σ i ) ) s . t . ∑ i = 1 k α i = 1 , α i > 0 \begin{aligned} \max L & = \ln \left( \prod_{j=1}^n p_{\mathcal{M}}(x_j) \right)\ & = \sum_{j=1}^n \ln \left( \sum_{i=1}^{k}\alpha_ip(x|\mu_i,\Sigma_i) \right)\ s.t. &\quad \sum_{i=1}^k \alpha_i =1,\quad \alpha_i>0 \end{aligned}max L s .t .=ln (j =1 ∏n p M (x j ))=j =1 ∑n ln (i =1 ∑k αi p (x ∣μi ,Σi ))i =1 ∑k αi =1 ,αi >0
这类问题利用拉格朗日乘子法可得
L L = L + λ ( ∑ i = 1 k α i − 1 ) LL = L+\lambda\left( \sum_{i=1}^k \alpha_i -1 \right)L L =L +λ(i =1 ∑k αi −1 )
然后求偏导令∂ L L ∂ μ i = 0 , ∂ L L ∂ Σ i = 0 , ∂ L L ∂ α i = 0 \frac{\partial LL}{\partial \mu_i} = 0,\ \frac{\partial LL}{\partial \Sigma_i} = 0,\ \frac{\partial LL}{\partial \alpha_i} = 0 ∂μi ∂L L =0 ,∂Σi ∂L L =0 ,∂αi ∂L L =0，这里是高数中的内容，自己可以尝试推，可得
μ i = ∑ j = 1 n γ j i x j ∑ j = 1 n γ j i , Σ i = ∑ j = 1 n γ j i ( x j − μ i ) ( x j − μ i ) T ∑ j = 1 n γ j i , α i = 1 n ∑ j = 1 n γ j i , λ = − n . \begin{aligned} \mu_i &= \frac{\sum_{j=1}^n \gamma_{ji} x_j }{\sum_{j=1}^n\gamma_{ji}},\ \Sigma_i & = \frac{\sum_{j=1}^n\gamma_{ji}(x_j-\mu_i)(x_j-\mu_i)^T}{\sum_{j=1}^n\gamma_{ji}},\ \alpha_i & = \frac{1}{n}\sum_{j=1}^n\gamma_{ji},\ \lambda & = -n. \end{aligned}μi Σi αi λ=∑j =1 n γj i ∑j =1 n γj i x j ,=∑j =1 n γj i ∑j =1 n γj i (x j −μi )(x j −μi )T ,=n 1 j =1 ∑n γj i ,=−n .

3.3.3 高斯混合聚类的步骤

初始化参数α i , μ i , Σ i \alpha_i,\mu_i,\Sigma_i αi ,μi ,Σi
遍历样本x j x_j x j ，计算样本x j x_j x j 有第i i i个高斯混合成分生成的 后验概率γ j i \gamma_{ji}γj i ,
遍历类，根据上式更新参数α i , μ i , Σ i \alpha_i,\mu_i,\Sigma_i αi ,μi ,Σi ,
若参数收敛，则停止，否则继续2-3,
根据x j x_j x j 的后验分布，确定x j x_j x j 的所属类λ j = arg ⁡ max ⁡ i γ j i \lambda_j = \arg \max_{i} \gamma_{ji}λj =ar g max i γj i .

下面是官方给出的利用BIC准则得到效果图，m o d e l = f u l l model = full m o d e l =f u l l时k = 2 k=2 k =2时最好的，f u l l full f u l l的意思是返回k k k个协方差矩阵，椭圆各轴不等，斜向。

; 3.4 密度聚类(DBSCAN)

相对于之前的Kmeans或之前的kmeans++采用 闵可夫斯基距离(Minkowski distance)，密度聚类采用的是 密度稠密的方法。数学类的同学可以比较熟悉 邻域这个名词来说明某些紧密的程度。 优点是不需要事先给定聚类数目。

3.4.1 前提回顾

DBSCAN是基于一组邻域(ϵ , M i n P t s \epsilon,MinPts ϵ,M i n P t s)，ϵ \epsilon ϵ在一维下表示长度为2 ϵ 2\epsilon 2 ϵ的线段，二维下表示半径ϵ \epsilon ϵ的圆，三维下表示半径ϵ \epsilon ϵ的球……后者表示最小样本数，下面引出相关的几个概念

ϵ \epsilon ϵ-邻域：样本x j x_j x j 的ϵ \epsilon ϵ-邻域为与x j x_j x j 的距离小于ϵ \epsilon ϵ的样本集，N ϵ ( x j ) N_{\epsilon}(x_j)N ϵ(x j )
核心对象：若ϵ \epsilon ϵ-邻域内 足够密集的x j x_j x j ，N ϵ ( x j ) ≥ M i n P t s N_{\epsilon}(x_j)\geq MinPts N ϵ(x j )≥M i n P t s
密度直达：x i x_i x i 在x j x_j x j 的ϵ \epsilon ϵ-邻域内，x i x_i x i 由x j x_j x j 密度直达，
注：可密度直达但不一定是核心对象，需要较为密集才是。
密度可达：虽然不在ϵ \epsilon ϵ-邻域内(密度直达)，但可以通过一系列密度直达的样本{p m p_m p m }相联系
密度相连：若x i x_i x i 与x k x_k x k 密度可达，x j x_j x j 与x k x_k x k 密度可达，则称x i x_i x i 与x j x_j x j 密度相连。

大白话说明：想象成一个楼梯样本，每一台阶即一个样本，ϵ \epsilon ϵ为相邻两个台阶的距离，若M I n P t s = 3 MInPts=3 M I n P t s =3，则除了楼底和楼顶两个台阶，皆为核心对象；这是因为中间台阶与其上下两个台阶都与该台阶ϵ \epsilon ϵ相邻。相邻台阶为密度直达，任意两个台阶都密度可达，前密度相连。

; 3.4.2 目睹聚类的步骤

显然，该方法的思想就是将密度可达的样本归为一类。主要是以核心对象出发，可以思考一下：从核心对象出发，由密度可达中可以找到最大的X \mathcal{X}X的样本集。算法流程如下

找到样本集X \mathcal{X}X中的所有核心对象Ω \Omega Ω,
取Ω \Omega Ω一核心对象ω \omega ω，找到在X \mathcal{X}X中与ω \omega ω密度可达的所有样本构成类C k C_k C k
令X = X \ C k , Ω = Ω \ C k , k = k + 1 \mathcal{X} = \mathcal{X} \backslash C_k,\quad \Omega = \Omega\backslash C_k,\quad k = k+1 X =X \C k ,Ω=Ω\C k ,k =k +1
直到Ω = ∅ \Omega = \empty Ω=∅，否则重复2-3.
将X \mathcal{X}X中剩余的样本标记为噪声样本。

3.4.3 月牙数据聚类据结果

这里采用月牙数据，选择 $\epsilon = 0.11, MinPts = 10$ ，得到下图的聚类结果，黑色点为噪声样本，分布在各类区域的周围，这也很容易从 密度可达的定义中得到解释。样本数据具体细节看代码中设置。

; 3.4.4 DBSCAN算法的优缺点

优点：可以看出当数据”缠绕”在一起时，当用kmeans聚类往往得到不实际的效果，自己可以试一试，要么需要先通过坐标变换后再用Kmeans，但一般情况下坐标变换我们不是轻易能找到的，DBSCAN算法可以减少我们试错的时间而得较高精确的结果。
缺点：从中我们可以发现DBSCAN密度聚类虽然不需要额外指定聚类簇数目k k k，但需要合理的参数ϵ \epsilon ϵ和M i n P t s MinPts M i n P t s，也需要根据实际情况去设置。

3.5 层次聚类(AGNES)

这里先给出层次聚类在四种策略下处理各种各样数据时的分类效果。

; 3.5.1 聚类簇间距离

AGNES算法是一种自底向上聚合策略的层次聚类算法，先将数据中每个样本数据自己看做一个簇，随后根据距离最小找出最小距离的合并为一个簇， 直至到达预设的聚类簇个数。
d m i n ( C i , C j ) = min ⁡ x ∈ C i , z ∈ C j d i s t ( x , z ) d m a x ( C i , C j ) = max ⁡ x ∈ C i , z ∈ C j d i s t ( x , z ) d a v g ( C i , C j ) = 1 ∣ C i ∣ ∣ C j ∣ ∑ x ∈ C i ∑ z ∈ C j d i s t ( x , z ) \begin{aligned} d_{min}(C_i,C_j) & = \min_{x\in C_i, z\in C_j}dist(x,z)\ d_{max}(C_i,C_j) & = \max_{x\in C_i, z\in C_j}dist(x,z)\ d_{avg}(C_i,C_j) & = \frac{1}{|C_i||C_j|}\sum_{x\in C_i}\sum_{z\in C_j} dist(x,z) \end{aligned}d m i n (C i ,C j )d m a x (C i ,C j )d a v g (C i ,C j )=x ∈C i ,z ∈C j min d i s t (x ,z )=x ∈C i ,z ∈C j max d i s t (x ,z )=∣C i ∣∣C j ∣1 x ∈C i ∑z ∈C j ∑d i s t (x ,z )
依次分别称为”单链接”（single-linkage）,”全链接”（full-linkage）,”均链接”（average-linkage）。而Ward-linkega是采用离差平方和E S S ESS E S S来归并类别的，
E S S ( C i ) = ∑ x ∈ C i x 2 − 1 ∣ C i ∣ ( ∑ x ∈ C i x ) 2 ESS(C_i) = \sum_{x\in C_i} x^2-\frac{1}{|C_i|}\left( \sum_{x\in C_i} x \right)^2 E S S (C i )=x ∈C i ∑x 2 −∣C i ∣1 (x ∈C i ∑x )2
其实这就是∣ C i ∣ V a r ( C i ) |C_i|Var(C_i)∣C i ∣V a r (C i )，总的离差平方和
E S S K = ∑ i = 1 K E S S ( C i ) ESS_K = \sum_{i=1}^{K}ESS(C_i)E S S K =i =1 ∑K E S S (C i )
ward-linkega是要求每次合并后ESS的增量最小，这怎么讲呢？首先有(这是显然的)
E S S ( C i ∪ C j ) > E S S ( C i ) + E S S ( C j ) ESS(C_i\cup C_j) >ESS(C_i)+ESS(C_j)E S S (C i ∪C j )>E S S (C i )+E S S (C j )
我们要找出使得E S S ( C i ∪ C j ) − ( E S S ( C i ) + E S S ( C j ) ) ESS(C_i\cup C_j) -\left(ESS(C_i)+ESS(C_j) \right)E S S (C i ∪C j )−(E S S (C i )+E S S (C j ))最小的两个簇C i C_i C i 和C j C_j C j 合并为一类。

当前三种距离时，我们是找出 距离最近的两个簇C i C_i C i 和C j C_j C j 进行合并。由于这是一个组合问题，在最初的时候(n n n为样本量)有n ( n − 1 ) 2 \frac{n(n-1)}{2}2 n (n −1 )中组合，有一些快速方法去提高这个效率，这里不做赘述。

3.5.2 层次聚类的步骤

X \mathcal{X}X中每个样本归为一类C i , i = 1 , 2 , ⋯ , n C_i,i = 1,2,\cdots,n C i ,i =1 ,2 ,⋯,n，计算距离矩阵M ∈ R n × n M\in\mathbf{R}^{n\times n}M ∈R n ×n,
找到距离最近的两个类C i ∗ C_{i^}C i ∗和C j ∗ C_{j^}C j ∗并合并，记为C i ∗ C_{i^*}C i ∗
将第j ∗ j^j ∗类后的类重新编号为j ∗ − 1 j^-1 j ∗−1,
部分更新距离矩阵M M M;
当类别数= k =k =k时停止，否则继续2-4。

3.5.3 层次聚类的效果

层次聚类理解较为简单，但是算法效率低下，下面给出一个环形数据的聚类结果，

; 4. 终极武器

还是得加强算法的理解以及程序的上手，好好理解。本人能力有限，如果文中有不对的地方，感谢指出，如果对您有帮助，请动动您可爱的小手，点个小小的赞，感谢。

4.1 python代码

由于采用jupyter编写，其中有数据图可以直接参看，故放在压缩包中，一定会给你惊喜的！百度网盘链接如下
链接：https://pan.baidu.com/s/1bpz-dwVN54U1Ma7WzQWDnw
提取码：mqsq

Original: https://blog.csdn.net/qq_45153782/article/details/124438407
Author: 菜菜编程
Title: 聚类数k的确定(间隔统计量,轮廓系数,Canopy算法)及Kmeans++聚类，高斯混合聚类，密度聚类，层次聚类的原理及python实现(文末附有相关代码)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549740/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SURF算法之Opencv代码详解

SURF特征点检测算法实现代码源自于Opencv2.4.11版本sources\modules\nonfree\src\surf.cpp文件中这篇文章只会对代码进行介绍（代码的介绍…

人工智能 2023年7月19日
0078
CVPR2020 论文和代码合集

【推荐阅读】 CVPR 2020 virtual ECCV 2020 论文开源项目合集来了：https://github.com/amusi/ECCV2020-Code 关于往年C…

人工智能 2023年7月18日
0038
论文阅读||A customized low-rank prior model for structured cartoon–texture image decomposition

论文阅读:一个自定义的结构化卡通纹理图像分解低秩先验模型目录 0、摘要 1、引言 2.Notations 编辑 3. 模型和算法 3.1. 定制低阶先验模型 3.2. 算法 4…

人工智能 2023年6月20日
00111
首次运行BERT需要的环境配置和准备详细教程，bert运行官方模型，使用MRPC数据集进行测试

第一步下载所需下载bert源码和模型首先我们下载bert的源码和官方的模型，去官网： https: 下载官网源码：下载官方模型：仔细看一看，把音量调小一点。下面肯定有这样一…

人工智能 2023年5月23日
00137
超分辨率（深度学习）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月12日
0081
rasa 介绍文档

重磅推荐专栏：《Transformers自然语言处理系列教程》手把手带你深入实践Transformers，轻松构建属于自己的NLP智能应用！ Rasa介绍 1.1 架构 Rasa…

人工智能 2023年5月30日
0079
PV-RCNN论文翻译

PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection Abstract 1. Introduct…

人工智能 2023年7月14日
0061
PCL 基于法线的双边滤波

目录一、算法原理 * 1、前言 2、算法概述 3、计算步骤 4、参考文献二、代码实现三、结果展示四、相关链接一、算法原理 1、前言 PCL中自带的双边滤波算法是基于点云的…

人工智能 2023年5月28日
00113
教你用Excel做电商数据分析

作者介绍 @知乎：鲸歌电商行业数据分析师为头部品牌提供数据咨询服务热衷学习与分享 “数据人创作者联盟”成员如果说在数据海洋里我是一艘乘风破浪的舰艇，…

人工智能 2023年7月18日
0064
知识图谱从入门到应用——知识图谱的存储与查询：基于关系数据库的知识图谱存储

分类目录：《知识图谱从入门到应用》总目录相关文章：· 知识图谱的存储与查询：基于关系数据库的知识图谱存储· 知识图谱的存储与查询：基于原生图数据库的知识图谱存储图数据存储的特点 …

人工智能 2023年6月1日
0096
AI大视觉（十八） | Yolo v5的改进思想

本文来自公众号”AI大道理”。这里既有AI，又有生活大道理，无数渺小的思考填满了一生。 Yolo v5一共有四个模型，分别为Yolov5s、Yolov…

人工智能 2023年5月26日
00102
【机器学习的数学基础】（一）线性代数(Linear Algebra)（上+）

2 线性代数(Linear Algebra)（上+）前面我们介绍了方程组的一般形式，即：a 11 x 1 + ⋯ + a 1 n x n = b 1 ⋮ a m 1 x 1 + …

人工智能 2023年6月16日
0076
ZBar源码分析——image.c | 2021SC@SDUSC

2021SC@SDUSC 一、Image 模块 ZBar的工作流程在以往的博客中做过一些介绍，在前几次的博客分析中也对video input部分和image scanner部分的一…

人工智能 2023年7月12日
0073
获取相机内参和外参的方法

作者 | 童虎编辑 | 3D视觉开发者社区✨如果觉得文章内容不错，别忘了三连支持下哦😘~ 相机内参：是与相机自身特性相关的参数，比如相机的焦距、像素大小。相机外参：在世界坐标系中…

人工智能 2023年6月25日
0064
数据库数据转json字符串及ajax请求数据渲染

续接：1.使用web框架程序处理客户端的动态资源请求代码实现 2.web框架之路由列表及SQL语句查询数据库数据替换模板变量一、数据库数据转json字符串 web框架程序可以开发…

人工智能 2023年6月30日
0097
vgg16利用相似性损失函数进行猫狗图像分类

1.dataset import random from PIL import Image from torchvision import datasets, transforms…

人工智能 2023年7月3日
0090

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31