用python实现聚类分析

2023年5月31日上午6:28 • 人工智能 • 阅读 89

文章目录

一、简介
二、k-means算法
*
2.1 模型参数
2.2 常用模型方法
2.3 实际例子
–
- 2.3.1 获取聚类中心：
- 2.3.2 获取类别
- 2.3.3 获取每个点到聚类中心的距离和
三、mini batch k-means算法
*
3.1 模型参数
四、层次聚类算法
*
4.1 模型参数
4.2 模型常用方法
4.3 实际例子
–
- 4.3.1 获取层次树中的叶子数
- 4.3.2 获取每个非叶结点中的子节点数量
- 4.3.3 可视化
五、DBSCN算法
*
5.1 模型参数
5.2 模型常用方法
六、聚类指标
*
6.1 RI 与 ARI
–
- 6.1.1 模型参数
- 6.1.2 示例
6.2 NMI
–
- 6.2.1 模型参数
- 6.2.2 示例
6.3 Jaccard系数
–
- 6.3.1 模型参数
- 6.3.2 示例
6.4 轮廓系数
–
- 6.4.1 模型参数
- 6.4.2 示例
6.5 CH指标
–
- 6.5.1 模型参数
- 6.5.2 示例

一、简介

这里较为详细介绍了聚类分析的各种算法和评价指标，本文将简单介绍如何用python里的库实现它们。

二、k-means算法

和其它机器学习算法一样，实现聚类分析也可以调用 sklearn中的接口。

from sklearn.cluster import KMeans

2.1 模型参数

KMeans(

    n_clusters=8,

    *,

    init='k-means++',

    n_init=10,

    max_iter=300,

    tol=0.0001,

    precompute_distances='deprecated',

    verbose=0,

    random_state=None,

    copy_x=True,

    n_jobs='deprecated',

    algorithm='auto',
)

2.2 常用模型方法

fit(X)——对数据X进行聚类
predict(X)——对新数据X进行类别的预测
cluster_centers_——获取聚类中心
labels_——获取训练数据所属的类别，比设置的聚类中心个数少1
inertia_——获取每个点到聚类中心的距离和
fit_predict(X)——先对X进行训练并预测X中每个实例的类，等于先调用fit(X)后调用predict(X)，返回X的每个类
transform(X)——将X进行转换，转换为K列的矩阵，其中每行为一个实例，每个实例包含K个数值（K为传入的类数量），第i列为这个实例到第K个聚类中心的距离
fit_transform(X)——先进行fit之后进行transform
score(X)——输入样本（这里的样本不是训练样本，而是其他传入的测试样本）到他们的类中心距离和，然后取负数

2.3 实际例子


from sklearn.datasets import make_blobs

X, y = make_blobs(random_state=1)

Kmeans = KMeans(n_clusters=3)

Kmeans.fit(X)

2.3.1 获取聚类中心：

Kmeans.cluster_centers_

输出：

array([[ -1.4710815 ,   4.33721882],
       [ -6.58196786,  -8.17239339],
       [-10.04935243,  -3.85954095]])

2.3.2 获取类别

Kmeans.labels_

输出：我们设置了3个聚类中心，所以输出3个类别。

array([0, 2, 2, 2, 1, 1, 1, 2, 0, 0, 2, 2, 1, 0, 1, 1, 1, 0, 2, 2, 1, 2,
       1, 0, 2, 1, 1, 0, 0, 1, 0, 0, 1, 0, 2, 1, 2, 2, 2, 1, 1, 2, 0, 2,
       2, 1, 0, 0, 0, 0, 2, 1, 1, 1, 0, 1, 2, 2, 0, 0, 2, 1, 1, 2, 2, 1,
       0, 1, 0, 2, 2, 2, 1, 0, 0, 2, 1, 1, 0, 2, 0, 2, 2, 1, 0, 0, 0, 0,
       2, 0, 1, 0, 0, 2, 2, 1, 1, 0, 1, 0], dtype=int32)

2.3.3 获取每个点到聚类中心的距离和

Kmeans.inertia_

输出：

156.28289251170003

三、mini batch k-means算法

mini batch k-means的用法和k-means类似。

from sklearn.cluster import MiniBatchKMeans

3.1 模型参数

MiniBatchKMeans(
    n_clusters=8,
    *,
    init='k-means++',
    max_iter=100,

    batch_size=100,
    verbose=0,

    compute_labels=True,
    random_state=None,
    tol=0.0,

    max_no_improvement=10,

    init_size=None,

    n_init=3,

    reassignment_ratio=0.01,
)

四、层次聚类算法

同样使用sklearn接口

from sklearn.cluster import AgglomerativeClustering

4.1 模型参数

AgglomerativeClustering(

    n_clusters=2,
    *,

    affinity='euclidean',

    memory=None,
    connectivity=None,

    compute_full_tree='auto',

    linkage='ward',

    distance_threshold=None,

    compute_distances=False,
)

4.2 模型常用方法

fit(X)——对数据X进行聚类
labels_——获取训练数据所属的类别，比设置的聚类中心个数少1
n_leaves_——层次树中的叶子数
children_——一个大小为[n_samples-1,2]的数组，给出了每个非叶结点中的子节点数量
fit_predict(X)——先对X进行训练并预测X中每个实例的类，等于先调用fit(X)后调用predict(X)，返回X的每个类，该模型不能对新的数据点进行预测
n_components_——一个整数，给出了连接图中的连通分量的估计

4.3 实际例子

from sklearn.cluster import AgglomerativeClustering
from sklearn.datasets import make_blobs

X, y = make_blobs(random_state=1)
agg = AgglomerativeClustering(n_clusters=3)
agg.fit_predict(X)

输出：对数据训练并预测

array([0, 2, 2, 2, 1, 1, 1, 2, 0, 0, 2, 2, 1, 0, 1, 1, 1, 0, 2, 2, 1, 2,
       1, 0, 2, 1, 1, 0, 0, 1, 0, 0, 1, 0, 2, 1, 2, 2, 2, 1, 1, 2, 0, 2,
       2, 1, 0, 0, 0, 0, 2, 1, 1, 1, 0, 1, 2, 2, 0, 0, 2, 1, 1, 2, 2, 1,
       0, 1, 0, 2, 2, 2, 1, 0, 0, 2, 1, 1, 0, 2, 0, 2, 2, 1, 0, 0, 0, 0,
       2, 0, 1, 0, 0, 2, 2, 1, 1, 0, 1, 0])

4.3.1 获取层次树中的叶子数

agg.n_leaves_

输出：

4.3.2 获取每个非叶结点中的子节点数量

agg.children_

输出：

array([[ 33,  68],
       [ 35,  39],
       [ 18,  21],
       [ 30,  92],
       [ 54,  58],
       [ 49, 100],
       [ 26,  55],
       [ 23,  27],
       [ 20,  45],
       [  3,  82],
       [  1,  71],
       [ 16,  52],
       [ 24,  38],
       [ 22,  77],
       [  9,  59],
       [ 44,  69],
       [ 40, 106],
       [ 15,  90],
       [ 36,  94],
       [ 53,  61],
       [ 72, 108],
       [ 37,  43],
       [ 17,  78],
       [ 60,  70],
       [ 50, 102],
       [ 76,  98],
       [107, 114],
       [ 56,  93],
       [  7, 110],
       [ 63, 112],
       [  8,  66],
       [ 11, 109],
       [ 42,  84],
       [  5,   6],
       [ 19, 121],
       [ 97, 104],
       [ 91, 105],
       [ 79,  88],
       [ 46,  73],
       [113, 116],
       [ 89, 132],
       [ 85,  87],
       [ 10,  41],
       [ 29,  51],
       [ 12,  96],
       [ 34, 118],
       [ 32, 144],
       [115, 123],
       [ 31,  48],
       [ 62, 125],
       [ 13, 130],
       [ 81, 134],
       [103, 135],
       [  0,  28],
       [ 75, 142],
       [120, 133],
       [ 65, 117],
       [ 47,  99],
       [127, 137],
       [101, 139],
       [122, 136],
       [ 74, 138],
       [140, 148],
       [ 80, 161],
       [111, 119],
       [155, 156],
       [124, 129],
       [131, 147],
       [ 64, 151],
       [141, 157],
       [ 83,  95],
       [143, 146],
       [  2, 168],
       [ 67, 164],
       [149, 170],
       [ 86, 150],
       [  4,  14],
       [128, 154],
       [158, 167],
       [ 25, 171],
       [159, 165],
       [160, 162],
       [153, 169],
       [ 57, 145],
       [126, 152],
       [163, 184],
       [166, 177],
       [173, 180],
       [178, 183],
       [175, 185],
       [174, 187],
       [176, 179],
       [172, 188],
       [181, 189],
       [186, 192],
       [190, 191],
       [182, 193],
       [194, 195],
       [196, 197]])

4.3.3 可视化

目前 scikit-learn 没有绘制树状图的功能，但可以利用 SciPy轻松生成树状图。 SciPy的聚类算法接口与 scikit-learn 的聚类算法稍有不同。 SciPy提供了一个函数，接受数据数组 X并计算出一个链接数组(linkage array)，它对层次聚类的相似度进行编码。然后我们可以将这个链接数组提供给 scipy 的 dendrogram 函数来绘制树状图。


from scipy.cluster.hierarchy import dendrogram, ward
X, y = make_blobs(random_state=0, n_samples=12)

linkage_array = ward(X)

dendrogram(linkage_array)

ax = plt.gca()
bounds = ax.get_xbound()
ax.plot(bounds, [7.25, 7.25], '--', c='k')
ax.plot(bounds, [4, 4], '--', c='k')

ax.text(bounds[1], 7.25, ' two clusters', va='center', fontdict={'size': 15})
ax.text(bounds[1], 4, ' three clusters', va='center', fontdict={'size': 15})
plt.xlabel("Sample index")
plt.ylabel("Cluster distance")

输出：

五、DBSCN算法

from sklearn.cluster import DBSCAN

5.1 模型参数

DBSCAN(

    eps=0.5,
    *,

    min_samples=5,

    metric='euclidean',
    metric_params=None,

    algorithm='auto',

    leaf_size=30,
    p=None,
    n_jobs=None,
)

5.2 模型常用方法

fit(X)——对数据X进行聚类
labels_——获取训练数据所属的类别，噪声点为-1
fit_predict(X)——先对X进行训练并预测X中每个实例的类，等于先调用fit(X)后调用predict(X)，返回X的每个类，该模型不能对新的数据点进行预测

六、聚类指标

6.1 RI 与 ARI


from sklearn.metrics.cluster import rand_score

from sklearn.metrics.cluster import adjusted_rand_score

6.1.1 模型参数

rand_score(labels_true, labels_pred)
adjusted_rand_score(labels_true, labels_pred)

6.1.2 示例

rand_score([0, 0, 1, 1], [1, 1, 0, 0])
adjusted_rand_score([0, 0, 1, 1], [1, 1, 0, 0])

输出：

1.0
1.0

6.2 NMI

from sklearn.metrics.cluster import normalized_mutual_info_score

6.2.1 模型参数

normalized_mutual_info_score(
    labels_true,
    labels_pred,
    *,
    average_method='arithmetic',
)

6.2.2 示例

normalized_mutual_info_score([0, 0, 1, 1], [1, 1, 0, 0])

输出：

1.0

6.3 Jaccard系数

from sklearn.metrics import jaccard_score

6.3.1 模型参数

jaccard_score(
    y_true,
    y_pred,
    *,
    labels=None,
    pos_label=1,
    average='binary',
    sample_weight=None,
    zero_division='warn',
)

6.3.2 示例

jaccard_score([0, 0, 1, 1], [0, 0, 1, 1])
jaccard_score([0, 0, 1, 1], [1, 1, 0, 0])

输出：在使用前，需要转化为相同的类别标识

1.0
0.0

6.4 轮廓系数

from sklearn.metrics.cluster import silhouette_score

6.4.1 模型参数

silhouette_score(
    X,
    labels,
    *,
    metric='euclidean',

    sample_size=None,
    random_state=None,
    **kwds,
)

6.4.2 示例

silhouette_score(X, agg.labels_)

输出： agg.labels_为用 AgglomerativeClustering算法对数据集 X进行的聚类

0.5811444237627902

6.5 CH指标

from sklearn.metrics.cluster import calinski_harabasz_score

6.5.1 模型参数

calinski_harabasz_score(X, labels)

6.5.2 示例

calinski_harabasz_score(X, agg.labels_)

输出：

26.268277404270318

Original: https://blog.csdn.net/TSzero/article/details/116265151
Author: 诡秘愚者
Title: 用python实现聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549404/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

百度DDParser的依存分析

安装 ✳安装前没注意，安装了paddlepaddle最新版2.0.1，结果引发了一些错误，好在不是严重的问题，修改后依旧可以使用安装百度深度学习框架paddlepaddle飞桨（…

人工智能 2023年5月31日
00138
Pycharm中ModuleNotFoundError: No module named ‘torch‘

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月5日
0063
Python实战|「甜点消消」游戏数据分析过程

一、背景现在人们的生活节奏逐渐加快，大部分人都只能利用琐碎的时间来进行适当的放松，这也符合人们的生活需求。然而，一个游戏为了生存下去，必须得注重用户的游戏体验来增加游戏的粘性，…

人工智能 2023年6月19日
0077
移动心理测评系统：心理健康评估、抑郁筛查、心理学量表

河南永硕实业发展有限公司成立于2009年，是一家专注于心理学及教育产品研发与应用的高科技企业，是一家纯粹的信息技术型高新技术企业。永硕公司立足于大数据、云计算，瞄准移动互联网应用为…

人工智能 2023年7月17日
0069
软件智能：aaas系统的三大组块chunk：范型、母版和父本

本片的话题是继前面”科学和宗教的关系”的内容的增强和扩展。一、大道至简前面说过，追问为什么why 成因的科学之父，和追泯怎样who成果的宗教之母，二者引…

人工智能 2023年6月10日
0082
学生HTML个人网页作业作品 HTML+CSS校园环保(大学生环保网页设计与实现)

🎀 精彩专栏推荐👇🏻👇🏻👇🏻✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战案…

人工智能 2023年6月27日
0098
Pysyft学习笔记

文章目录 1 隐私、分布式数据科学的基础工具 * 1.1 张量指针 1.2 使用张量指针 2 联邦学习简介 * 2.1 一个联邦学习的范例 3 高级远程执行工具 * 3.1 指向指…

人工智能 2023年7月28日
0076
Neo4j 知识图谱的技术解析及案例分享

合作分享：Jesus Barrasa-Neo4j-欧洲区售前和技术总监合作分享：丁可-Neo4j-亚太区高级技术顾问编辑整理：吴祺尧-加州大学圣地亚哥分校出品平台：DataF…

人工智能 2023年6月1日
0083
超详细！手把手带你轻松用 MMSegmentation 跑语义分割数据集

在带你轻松掌握 MMSegmentation 整体构建流程一文中，我们带大家认识了 MMSegmentation 的整体框架，分享了 MMSegmentation 中已经复现的主流…

人工智能 2023年6月16日
00177
【路径规划】全局路径规划算法——蚁群算法（含python实现）

文章目录参考资料 1. 简介 2. 基本思想 3. 算法精讲 4. 算法步骤 5. python实现参考资料路径规划与轨迹跟踪系列算法蚁群算法原理及其实现蚁群算法详解（含…

人工智能 2023年6月1日
0087
可见光相机与红外相机标定

目录 1.打开相机 2.可见光相机畸变矫正安装相关库查看相机参数修改launch文件启动标定程序启动矫正图像节点 3.查看相机图像 4.计算H举矩阵手动标注获取每一组的…

人工智能 2023年5月28日
00133
没有NVIDIA控制面板，在cmd中使用nvidia-smi命令不显示CUDA Version的解决方案

系列文章目录 Environment_set 没有NVIDIA控制面板，在cmd中使用nvidia-smi命令不显示CUDA Version的解决方案系列文章目录前言一、没有…

人工智能 2023年5月26日
00106
单调栈模板

力扣503 class Solution { public: vector nextGreaterElements(vector& nums) { int n = nums…

人工智能 2023年6月4日
00106
数据清洗Chap6——数据统计

数据清洗-Chap 6-数据清洗 6.1数据分组方法 6.2聚合函数の使用 6.3分组对象与apply函数 6.4透视图与交叉表 6.1数据分组方法分组计算：根据某个或者几个字段…

人工智能 2023年7月7日
0078
Diffusion models代码实战：从零搭建自己的扩散模型

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月12日
0062
ARIMA差分自回归移动平均模型–时间序列预测

ARIMA差分自回归移动平均模型 1、ARIMA模型理论基础 2、ARIMA建模步骤 3、ARIMA建模实战 * 3.1 导入模块 3.2 加载数据 3.3 平稳性检验 3.4 单…

人工智能 2023年6月16日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31