聚类算法评价指标之DBI指数及Python实现

2023年6月15日下午8:47 • 人工智能 • 阅读 130

综合考虑了类内样本相似度以及类间样本差异度，其值越小表征聚类有效性越高，假设我们有 m m m 个序列，将这些序列通过算法聚为 n n n 类，使用 DBI 聚类效果评价方法。具体定义如下：
D B I = 1 N ∑ i = 1 N max ⁡ j ≠ i S i ‾ + S j ‾ ∥ w i − w j ∥ 2 DBI=\frac{1}{N}\sum^N_{i=1}\displaystyle \max_{j\neq i}\frac{\overline{S_i}+\overline{S_j}}{\left\| w_i-w_j\right\|_2}D B I =N 1 i =1 ∑N j =i max ∥w i −w j ∥2 S i +S j

式中：D B I DBI D B I 表示 DBI 指标值；S i ‾ \overline{S_i}S i 为第 i i i 类样本到其类中心的平均欧氏距离； ∥ w i − w j ∥ 2 \left\| w_i-w_j\right\|_2 ∥w i −w j ∥2 为第 i i i 和第 j j j 类的类中心欧氏距离。

2.具体计算步骤

1）计算S i S_i S i 
DBI 计算公式中首先定义了S i S_i S i 变量，S i S_i S i 计算的是类内数据到簇质心的平均距离，代表了簇类i i i 中各时间序列的分散程度，计算公式为：
S i = ( 1 T i ∑ j = 1 T i ∣ X j − A i ∣ p ) 1 / p S_i=\left({\frac{1}{T_i}}\sum^{T_i}_{j=1}\left |X_j-A_i\right|^p\right)^{1/p}S i =(T i 1 j =1 ∑T i ∣X j −A i ∣p )1/p
其中X j X_j X j 代表簇类i i i 中第j j j 个数据点，也就是一个时间序列，A i A_i A i 是簇类i i i 的质心，T i T_i T i 是簇类i i i 中数据的个数。
p p p 取 1 表示：各点到中心的距离的均值，p p p 取 2 时表示：各点到中心距离的标准差，它们都可以用来衡量分散程度。
p p p 在通常情况下取 2，这样就可以计算独立的数据点和质心的欧式距离（euclidean metric），当然在考察流型和高维数据的时候，欧氏距离也许不是最佳的距离计算方式，但也是比较典型的了。
2）计算M i j M_{ij}M ij 
分子之和计算完后，需计算分母 M i j M_{ij}M ij ，DBI 定义了一个距离值 M i j M_{ij}M ij ：表示第 i i i 类与第 j j j 类的距离，计算公式为：
M i j = ∥ A i − A j ∥ p = ( ∑ k = 1 N ∣ a k i − a k j ∣ p ) 1 / p M_{ij}=\left\| A_i-A_j\right\|p=\left(\sum^{N}{k=1}\left |a_{ki}-a_{kj}\right|^p\right)^{1/p}M ij =∥A i −A j ∥p =(k =1 ∑N ∣a ki −a kj ∣p )1/p
a k i a_{ki}a ki 表示第 i i i 类的质心点的第 K K K 个值，M i j M_{ij}M ij 则就是第 i i i 类与第 j j j 类质心的距离（两个点的距离）。
3）计算R i j R_{ij}R ij 
计算了分子与分母后，DBI 定义了一个衡量相似度的值 R i j R_{ij}R ij ，计算公式为：
R i j = S i + S j M i j R_{ij}=\frac{S_i+S_j}{M_{ij}}R ij =M ij S i +S j
衡量第 i i i 类与第 j j j 类的相似度。
4）计算DBI
有了以上公式的基础，我们做一个基于簇类数 n n n 的 n 2 n^2 n 2 的嵌套循环，对每一个簇类 i i i 计算最大值的R i j R_{ij}R ij ，记为D i D_i D i ，即：
D i = max ⁡ j ≠ i R i , j D_i=\displaystyle \max_{j\neq i}R_{i,j}D i =j =i max R i ,j
也即簇类 i i i 与其他类的最大相似度值，也就是取出最差结果。然后对所有类的最大相似度取均值就得到了 DBI 指数，计算公式为：

D B I = D ‾ = 1 N ∑ i = 1 N D i DBI=\overline{D}=\frac{1}{N}\sum^N_{i=1}D_i D B I =D =N 1 i =1 ∑N D i
分类个数的不同可以导致不同的值，DBI 值越小，分类效果越好（说明分散程度越低）。

图例：

左图表示不同簇类数目下数据点的分类情况，右图表示在不同的簇类数目下(q=1)，DBI 值的变化。

总的来说，这个 DBI 就是计算类内距离之和与类间距离之比，来优化 k 值的选择，避免 K-means 算法中由于只计算目标函数Wn而导致局部最优的情况。

; 3.Python实现

Python 3 实现如下：


class evalution:

    @classmethod
    def vector_distance(cls, v1, v2):
"""
        this function calculates de euclidean distance between two vectors.

        params:
            v1: vector v1
            v2: vector v2
"""
        sum = 0
        for i in range(len(v1)):
            sum += (v1[i] - v2[i]) ** 2
        return sum ** 0.5

    @classmethod
    def compute_si(cls, i, x, clusters, nc):
"""
        Average distance from within-class data to cluster centroids
        params:
            clusters: 某一聚类中心点，例如 clusters[j]，具体内容取决于 j 的值。
            x: 分类结果中，某一类数据集合。
            i: label_的索引, 若为 1，则 x[1]表示 label 为 clusters[j] 的数据的集合
            nc: nc is number of clusters
"""
        norm_c = nc
        s = 0
        for t in x[i]:
            s += cls.vector_distance(t, clusters)
        return s / norm_c

    @classmethod
    def compute_rij(cls, i, j, x, clusters, nc):
"""
        先计算 Mij，再计算 Rij
        params:
            clusters: cluster centroids
            i, j: 两个聚类结果的索引
            nc: nc is number of clusters
"""
        m_ij = cls.vector_distance(clusters[i], clusters[j])
        r_ij = (cls.compute_si(i, x, clusters[i], nc) + cls.compute_si(j, x, clusters[j], nc)) / m_ij
        return r_ij

    @classmethod
    def compute_di(cls, i, x, clusters, nc):
"""
        Calculates the max similarity between cluster i and other clusters
        params:
            i: 聚类结果中某一label_
            x: 聚类结果数据，x[1]表示label为1的数据的集合
            clusters: cluster centroids(聚类中心)
            nc: nc is number of clusters
        return:
            max(list_r): max similarity between cluster i and other clusters
"""
        list_r = []
        for j in range(nc):
            if i != j:
                temp = cls.compute_rij(i, j, x, clusters, nc)
                list_r.append(temp)
        return max(list_r)

    @classmethod
    def compute_db_index(cls, x, clusters, nc):
"""
        params:
            x:
            clusters:
            nc: nc is number of clusters
"""
        sigma_r = 0.0
        for i in range(nc):
            sigma_r = sigma_r + cls.compute_di(i, x, clusters, nc)
        db_index = float(sigma_r) / float(nc)
        return db_index

if __name__ == '__main__':
    db_index = evalution.compute_db_index(x, clusters, nc)

参考资料
[1] Davies-Bouldin指数（DBI） 2020.11
[2] Python实现DBI(davies_bouldin_score)评价指标 2020.3
[3] 聚类算法评价指标——Davies-Bouldin指数(Dbi) 2018.5
[4] 聚类算法内部度量-si,ch,dbi 2022.2

Original: https://blog.csdn.net/weixin_46713695/article/details/126303649
Author: 赵孝正
Title: 聚类算法评价指标之DBI指数及Python实现

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/617382/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

小度智能音箱维修点_小度在家是哪家公司的_小度在家智能音箱怎么样

百度在北京发布新款智能音箱《小度在家》。家里的这个小度怎么样？百度智能音箱小度在家，值得入手吗？ [En] Baidu launched the new smart speaker…

人工智能 2023年5月27日
00105
Python学习 | 2021-11-05 Scipy聚类色彩提取

目录一、聚类分析 1、聚类 2、Scipy中的聚类算法（K-Means） 3、聚类示例完整代码：运行结果：函数使用：二、图像色彩聚类操作步骤：完整代码：运行结果： …

人工智能 2023年5月31日
00103
Privacy Preserving Probabilistic Record Linkage Without Trusted Third Party论文总结

Privacy Preserving Probabilistic Record Linkage Without Trusted Third Party论文总结 Abstract I…

人工智能 2023年6月29日
00110
整理了27个Python人工智能库，建议收藏~

超级无敌干货，第一时间送达！！！为了大家能够对人工智能常用的 Python 库有一个初步的了解，以选择能够满足自己需求的库进行学习，对目前较为常见的人工智能库进行简要全面的介绍。…

人工智能 2023年7月16日
0074
卷积层中的步幅是什么，它如何影响输出尺寸

问题背景在深度学习中，卷积神经网络(Convolutional Neural Network, CNN)是一种常用的神经网络结构，广泛应用于图像识别、语音识别和自然语言处理等领域…

人工智能 2024年1月3日
0076
混合IP-SDN环境的仿真实验

混合IP-SDN环境的仿真实验混合IP-SDN环境的仿真实验 * 实验室名称实验名称实验原理实验目的实验设备实验步骤 – 1.在mininet中搭建如下拓扑…

人工智能 2023年6月26日
0088
【深度学习基础】卷积是如何计算的

1 什么是多卷积核 1.1 卷积从本质上讲，卷积的计算过程其实同全连接一样，也是各个神经元之间的线性组合。只是卷积操作在进行线性组合时选择的是特定位置上的神经元。下面我们首先通过…

人工智能 2023年6月16日
00129
矩阵分析学习笔记（四）：λ矩阵及其Smith标准型

文章目录写在前面 λ \lambda λ矩阵及其Smith标准型 * 多项式矩阵多项式矩阵的秩单位模阵多项式矩阵的逆一般情况下会是有理分式矩阵单位模阵的行列式刻画多项式…

人工智能 2023年6月27日
00136
【cartographer_ros】四：发布和订阅里程计odom信息

上一节介绍了激光雷达Scan传感数据的订阅和发布。本节会介绍里程计Odom数据的发布和订阅。里程计在cartographer中主要用于前端位置预估和后端优化。官方文档：http…

人工智能 2023年6月4日
0091
ECG：机器学习之预处理算法与R波定位算法（附部分代码）

ECG：机器学习之预处理算法与R波定位算法（附部分代码）目前网上有关ECG信号处理的文章越来越多，说明这一块做的人也越来越多，但是网上的资源却很有限，而且很多资源都有一定的缺陷且…

人工智能 2023年6月24日
00101
一文看尽 CVPR2022 最新 22 篇论文（附打包下载）

CVPR 2022 已经放榜，本次一共有2067篇论文被接收，接收论文数量相比去年增长了24%。由于每年的 CVPR 全部论文以及相关细节都需要等到六月会议召开才会正式公布，在这之…

人工智能 2023年5月26日
00150
机器学习分类算法之支持向量机

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
00106
本文带你了解透彻云计算（前世，今生，未来）

作者简介：一名在校云计算网络运维学生、每天分享云计算运维的学习经验、和学习笔记。座右铭：低头赶路，敬事如仪 *个人主页：网络豆的主页前言对于云计算，我们将会通过云…

人工智能 2023年6月29日
00120
Linux常用操作:文件及文件夹

一、创建 (1)mkdir 创建一个目录 (2)…

人工智能 2023年6月4日
00100
独孤九剑第八式-DBSCAN聚类模型（密度聚类模型）

🐱 文章适合于所有的相关人士进行学习🐱🐶 各位看官看完了之后不要立刻转身呀🐶🐹 期待三连关注小小博主加收藏🐹🐴 小小博主回关快会给你意想不到的惊喜呀🐴各位老板动动小手给小弟点赞收…

人工智能 2023年5月31日
0091
时序分析 29 – 时序预测 – 格兰杰因果关系（下） python实践2

时序分析 29 Granger-Cause 实践2 金融时序数据分析本文主要搭建经济模型，从而分析和预测金融时序数据，重点关注黄金和原油价格。这两种金融资产对全球经济影响较大…

人工智能 2023年7月15日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类算法评价指标之DBI指数及Python实现

目录

大家都在看