聚类的评价指标NMI标准化互信息+python实现+sklearn调库

2023年6月2日上午10:02 • 人工智能 • 阅读 68

标准化互信息（normalized Mutual Information, NMI）用于 度量聚类结果的相似程度，是community detection的重要指标之一，其取值范围在[0 1]之间，值越大表示聚类结果越相近，且对于[1, 1, 1, 2] 和 [2, 2, 2, 1]的结果判断为相同

对于6个点(v1, v2, …, v6)，若聚成3个类
真实值为v1, v2, v3一个类，v4一个类，v5，v6一个类，则其结果可写为[1, 1, 1, 2, 3, 3] （相同的数字表示对应的id属于同一个类）

通过自己的聚类算法，得到v1, v4一个类，v2, v5一个类 v3, v6一个类，则结果为[1, 2, 3, 1, 2, 3]

如何度量算法结果与标准结果之间的相似度，使结果越相似，值应接近1；如果算法结果很差则值接近0？

信息熵

H ( X ) = − ∑ i p ( x i ) log ⁡ p ( x i ) H(X)=-\sum_{i} p\left(x_{i}\right) \log p\left(x_{i}\right)H (X )=−i ∑p (x i )lo g p (x i )

相对熵（relative entropy）

又被称为Kullback-Leibler散度（Kullback-Leibler divergence， KL散度）或信息散度（information divergence）

是两个概率分布（probability distribution）间差异的非对称性度量。在在信息理论中，相对熵等价于两个概率分布的信息熵（Shannon entropy）的差值

设p(x),q(x)是随机变量X上的两个概率分布，则在离散与连续随机变量的情形下，相对熵的定义分别为：K L ( p ∥ q ) = ∑ p ( x ) log ⁡ p ( x ) q ( x ) K L ( p ∥ q ) = ∫ p ( x ) log ⁡ p ( x ) q ( x ) \begin{array}{l} K L(p \| q)=\sum p(x) \log \frac{p(x)}{q(x)} \ \ K L(p \| q)=\int p(x) \log \frac{p(x)}{q(x)} \end{array}K L (p ∥q )=∑p (x )lo g q (x )p (x )K L (p ∥q )=∫p (x )lo g q (x )p (x )
KL散度可以理解为两个概率分布的距离，但不是真的距离，即p对q的相对熵与q对p的相对熵不相等。

互信息

互信息(Mutual Information)是信息论里一种有用的信息度量，它可以看成是一个随机变量中包含的关于另一个随机变量的信息量，或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

设两个随机变量 ( X , Y ) (X,Y)(X ,Y )的联合分布为 p ( x , y ) p(x,y)p (x ,y )，边缘分布分别为 p ( x ) , p ( y ) p(x),p(y)p (x ),p (y )

互信息 I ( X ; Y ) I(X;Y)I (X ;Y ) 是联合分布 p ( x , y ) p(x,y)p (x ,y )与乘积分布 p ( x ) ( y ) p(x)(y)p (x )(y ) 的相对熵，即公式为：
I ( X ; Y ) = ∑ x ∑ y p ( x , y ) log ⁡ p ( x , y ) p ( x ) p ( y ) I(X ; Y)=\sum_{x} \sum_{y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}I (X ;Y )=x ∑y ∑p (x ,y )lo g p (x )p (y )p (x ,y )

*归一化互信息(NMI)

将互信息缩放在[0,1]之间。比较常见的归一化方法：
N M I ( X ; Y ) = 2 I ( X ; Y ) H ( X ) + H ( Y ) N M I(X ; Y)=2 \frac{I(X ; Y)}{H(X)+H(Y)}N M I (X ;Y )=2 H (X )+H (Y )I (X ;Y )

python


'''
Created on 2017年10月28日

@summary: 利用Python实现NMI计算

@author: dreamhome
'''
import math
import numpy as np
from sklearn import metrics
def NMI(A,B):

    total = len(A)
    A_ids = set(A)
    B_ids = set(B)

    MI = 0
    eps = 1.4e-45
    for idA in A_ids:
        for idB in B_ids:
            idAOccur = np.where(A==idA)
            idBOccur = np.where(B==idB)
            idABOccur = np.intersect1d(idAOccur,idBOccur)
            px = 1.0*len(idAOccur[0])/total
            py = 1.0*len(idBOccur[0])/total
            pxy = 1.0*len(idABOccur)/total
            MI = MI + pxy*math.log(pxy/(px*py)+eps,2)

    Hx = 0
    for idA in A_ids:
        idAOccurCount = 1.0*len(np.where(A==idA)[0])
        Hx = Hx - (idAOccurCount/total)*math.log(idAOccurCount/total+eps,2)
    Hy = 0
    for idB in B_ids:
        idBOccurCount = 1.0*len(np.where(B==idB)[0])
        Hy = Hy - (idBOccurCount/total)*math.log(idBOccurCount/total+eps,2)
    MIhat = 2.0*MI/(Hx+Hy)
    return MIhat

if __name__ == '__main__':
    A = np.array([1,1,1,1,1,1,2,2,2,2,2,2,3,3,3,3,3])
    B = np.array([1,2,1,1,1,1,1,2,2,2,2,3,1,1,3,3,3])
    print NMI(A,B)
    print metrics.normalized_mutual_info_score(A,B)

标准化互信息NMI计算步骤及其Python实现 https://blog.csdn.net/DreamHome_S/article/details/78379635?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.baidujs&dist_request_id=1328603.9611.16149098780214877&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-4.baidujs

sklearn

from sklearn import metrics
A = [1, 1, 1, 2, 3, 3]
B = [1, 2, 3, 1, 2, 3]
result_NMI=metrics.normalized_mutual_info_score(A, B)
print("result_NMI:",result_NMI)

Original: https://blog.csdn.net/weixin_42764932/article/details/114384803
Author: 我想静静，
Title: 聚类的评价指标NMI标准化互信息+python实现+sklearn调库

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560511/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI&BlockChain：“知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》案例的界面简介、功能介绍分享之总篇

AI&BlockChain：”知名博主独家讲授”人工智能创新应用竞赛【精选实战作品】之《基于计算机视觉、自然语言处理和区块链技术的乘客智能报警系统》…

人工智能 2023年6月23日
0072
RocketMQ 介绍及基本概念

1 介绍 RocketMQ作为一款纯java、分布式、队列模型的开源消息中间件，支持事务消息、顺序消息、批量消息、定时消息、消息回溯等。 1.1 RocketMQ 特点支持发布/…

人工智能 2023年7月29日
0045
DataFrame.nunique()，DataFrame.count()

1. nunique() DataFrame. nunique （ axis = 0， dropna = True ）功能：计算请求轴上的不同观察结果参数： axis： {0或…

人工智能 2023年6月2日
0076
Image.open和cv2.imread读取图像的区别，及改变图像分辨率

图像的读取两者区别两者相互转换具体需求代码需要对一些图片做图像处理，但是原数据图像太大了（2700×2500左右），实际的处理过程中并不需要这么高的分辨率，所以需…

人工智能 2023年5月26日
00131
基于一个多分类问题比较bert单任务训练和多任务训练

笔者在学习基于huggingface实现多分类问题时，使用了kaggle比赛中的Feedback Prize – Predicting Effective Argume…

人工智能 2023年7月3日
0044
一元线性回归个人梳理

一元线性回归回归定义：回归分析(regression analysis)用来建立方程模拟两个或者多个变量之间如何关联被预测的变量叫做：因变量(dependent variab…

人工智能 2023年6月18日
0062
电池认证最新CTL协议-DSH 2182（第二次充电过程充电截止电流）！

2022年8月29日，IECEE官网发布关于电池CTL决议DSH 2182，涉及标准IEC 62133-2:2017，IEC 62133-2:2017/AMD1:2021. 内容如…

人工智能 2023年6月4日
0075
Android组件化架构搭建

早期单一分层模式问题一：无论怎么分包，随着项目增大，项目失去层次感。问题二：包名约束太弱，稍有不注意，就会不同业务包直接互相调用，代码高耦合。问题三：多人开发在版本管理中，容…

人工智能 2023年6月28日
0070
【论文学习】graph backdoor论文学习

摘要本文提出了GTA攻击方法，这是在GNN上的第一个后门攻击（backdoor attack）。GTA有如下几个重要的方面：1）graph-oriented：将trigger定义…

人工智能 2023年6月1日
0083
conda常用命令汇总

目录一、conda命令二、conda info 三、conda create 四、conda install 五、conda remove 六、conda list 七、con…

人工智能 2023年7月3日
00110
pyqt使用graphicsView显示图片

文章目录 * – 源码 – + untitled.py + main.py – 缩放图形界面使用Qt Designer绘制，如下菜单项添加一…

人工智能 2023年6月23日
0081
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

人工智能 2023年6月2日
00128
【机器学习】谱聚类（Spectral Clustering）

疑问谱聚类的概念谱聚类是一种针对图结构的聚类方法，将每个点都看作是一个图结构上的点，所以，判断两个点是否属于同一类的依据就是，两个点在图结构上是否有边相连，可以是直接相连也可…

人工智能 2023年6月16日
0069
论文阅读笔记（2）：Learning a Self-Expressive Network for Subspace Clustering，SENet，用于大规模子空间聚类的自表达网络

论文阅读笔记（2）：Learning a Self-Expressive Network for Subspace Clustering. SENet——用于大规模子空间聚类的自表…

人工智能 2023年6月2日
0078
Matlab 模糊C均值聚类分析与因子分析实验报告

Matlab 模糊C均值聚类分析与因子分析实验报告提示：数据资源在本CSDN号的上传资料中直接领取 1 引言数据：gyzb.mat（按顺序对应每一列）为：31个省市区的国有控股…

人工智能 2023年6月2日
0071
KT404A/C系列语音芯片参考程序&硬件设计注意事项

目录 1.概述 1.1 简介 KT404A是一个提供串口的语音芯片，完美的集成了MP3、WAV的硬解码。同时软件支持工业级别的串口通信协议，以SPIFLASH作为存储介质，用户可以…

人工智能 2023年5月27日
00132

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类的评价指标NMI标准化互信息+python实现+sklearn调库

信息熵

相对熵（relative entropy）

互信息

*归一化互信息(NMI)

python

sklearn

大家都在看