【Python数据分析】数据挖掘建模——聚类分析

2023年5月31日上午7:27 • 人工智能 • 阅读 95

聚类算法是在没有给定划分类别的情况下，根据数据相似度进行样本分组的一种方法，是一种无监督学习方法。聚类的输入是一组未被标记的样本，聚类根据数据自身的距离或相似度将他们划分为若干组，划分的原则是组内样本最小而组间距离最大化。

常用的聚类方法有：

常见的聚类分析算法有：

这里主要介绍一下最常用的K-Means聚类算法

一、K-Means聚类算法简介

K-Means算法是典型的基于距离的非层次聚类算法，在最小化误差函数的基础上将数据划分为预定的类数k，采用距离作为相似性评价指标，即认为两个对象的距离越近，其相似度就越大。

1.算法过程

（1）从n个样本数据中随机选取k个对象作为初始聚类中心；

（2）分别计算每个样本到各个聚类中心的距离，将对象分配到距离最近的聚类中；

（3）所欲对象分配完后，重新计算k个聚类的中心；

（4）与前一次计算得到的k个聚类中心比较，如果聚类中心发生变化，转至步骤（2），否则转至步骤（5）；

（5）当质心不发生变化时，停止并输出聚类结果。

2.聚类算法的优缺点

2.1 优点

容易理解，聚类效果不错，虽然是局部最优，但往往局部最优就够了；
处理大数据集的时候，该算法可以保证较好的伸缩性；
当簇近似高斯分布的时候，效果非常不错；
算法复杂度低。

2.2 缺点

K 值需要人为设定，不同 K 值得到的结果不一样；
对初始的簇中心敏感，不同选取方式会得到不同结果；
对异常值敏感；
样本只能归为一类，不适合多分类任务；
不适合太离散的分类、样本类别不平衡的分类、非凸形状的分类。

参考：【机器学习】K-means（非常详细） – 知乎

聚类的结果可能依赖于初始聚类中心的随机选择，使得结果严重偏离全局最优分类。因此，在实践中为了得到较好的结果，通常选择不同的初始聚类中心，多次运行k-means算法。在计算k个聚类中心的时候，对于连续数据，聚类中心取该簇的均值但是当样本的某些属性是分类变量时，均值可能无定义，此时可以使用k-众数方法。

3.相似性的度量

对于连续属性，要先对各属性值进行零-均值规范，再进行距离的计算。度量样本之间的相似性最常用的是欧几里得距离、曼哈顿距离和闵可夫斯基距离。

4.目标函数

使用误差平方和SSE作为度量聚类质量的目标函数。

簇

的聚类中心

的计算公式

其中 k表示聚类簇的个数，

表示第i个簇，x代表样本，

表示簇

的聚类中心，n表示数据集中样本的个数，【Python数据分析】数据挖掘建模——聚类分析

表示第i个簇中样本的个数。

二、用Python实现K-Means聚类算法

1、导入数据并进行标准化

import pandas as pd
inputfile = './Python数据分析与挖掘实战（第2版）/chapter5/demo/data/consumption_data.xls'
data = pd.read_excel(inputfile,index_col = 'Id')
data

数据如下：

该数据集表示餐饮客户的消费行为特征

k = 3   #聚类的类别
iteration = 500  #聚类最大循环次数
data_zs = 1.0*(data-data.mean())/data.std()   #数据标准化
data_zs

2.构建kmeans模型

from sklearn.cluster import KMeans
model = KMeans(n_clusters = k, n_jobs = 4, max_iter = iteration, random_state = 1234) #分类为k，并发数为4
model.fit(data_zs)

n_clusters: 簇的个数，即你想聚成几类

init: 初始簇中心的获取方法

n_init: 获取初始簇中心的更迭次数，为了弥补初始质心的影响，算法默认会初始 10 个质心，实现算法，然后返回最好的结果。

max_iter: 最大迭代次数（因为kmeans算法的实现需要迭代）

tol: 容忍度，即kmeans运行准则收敛的条件

precompute_distances:是否需要提前计算距离，这个参数会在空间和时间之间做权衡，如果是 True 会把整个距离矩阵都放到内存中，auto 会默认在数据样本大于featurs * samples 的数量大于 12e6 的时候 False , False 时核心实现的方法是利用Cpython 来实现的

verbose: 冗长模式（不太懂是啥意思，反正一般不去改默认值）

random_state: 随机生成簇中心的状态条件。

copy_x: 对是否修改数据的一个标记，如果 True ，即复制了就不会修改数据。 bool 在scikit - learn 很多接口中都会有这个参数的，就是是否对输入数据继续copy 操作，以便不修改用户的输入数据。这个要理解Python 的内存机制才会比较清楚。

n_jobs: 并行设置

algorithm: kmeans的实现算法，有： 'auto' , ‘full ', ‘elkan' , 其中 ‘full'表示用EM方式实现

虽然有很多参数，但是都已经给出了默认值。所以我们一般不需要去传入这些参数,参数的。可以根据实际需要来调用。

参考：https://www.jb51.net/article/129821.htm

3.结果展示

#简单打印结果
r1 = pd.Series(model.labels_).value_counts()  #统计各类别数目
r2 = pd.DataFrame(model.cluster_centers_)  #找出聚类中心
r = pd.concat([r2,r1],axis =1)  #得到聚类中心对应的类别下的数目

r.columns = list(data.columns) + ['类别数目']    #重命名表头
print(r)

得到结果如下，显示了每个特征在每个簇下的中心位置。

详细输出原始数据及其类别

r = pd.concat([data, pd.Series(model.labels_,index =data.index)],axis =1)
r.columns = list(data.columns) + ['聚类类别']

我们还可以用聚类结果可视化工具——TSNE将数据进行降维并在二维或者三维空间展示出来。

使用TSNE进行数据降维并展示聚类结果
from sklearn.manifold import TSNE
tsne = TSNE()
tsne.fit_transform(data_zs)  # 进行数据降维
tsne.embedding_可以获得降维后的数据
print('tsne.embedding_: \n', tsne.embedding_)
tsn = pd.DataFrame(tsne.embedding_, index=data.index)  # 转换数据格式

import matplotlib.pyplot as plt
plt.rcParams['font.sans-serif'] = ['SimHei']  # 用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False  # 用来正常显示负号

不同类别用不同颜色和样式绘图
color_style = ['r.', 'go', 'b*']
for i in range(k):
    d = tsn[r[u'聚类类别'] == i]
    # dataframe格式的数据经过切片之后可以通过d[i]来得到第i列数据
    plt.plot(d[0], d[1], color_style[i], label='聚类' + str(i+1))
plt.legend()
plt.show()

结果如下：

Original: https://blog.csdn.net/weixin_41168304/article/details/122747347
Author: 阿丢是丢心心
Title: 【Python数据分析】数据挖掘建模——聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549756/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv5训练自己的数据集详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、YOLOv5源码下载二、环境配置三、创建数据集四、更改配置…

人工智能 2023年6月23日
00102
我，32岁公司财务，用Python3秒钟完成别人半天的工作量，不用Excel了？

做过数据分析的程序员都知道：Excel、Tableau等这些亲民工具都是数据分析的得力助手。但用Excel做分析，繁琐的每一步都是来自鼠标点击，中间如果一步有误，很多步骤都需要重…

人工智能 2023年7月17日
0063
tensor的索引、切片、拼接和压缩等

ensor的索引、切片和拼接一、相关命令命令1：拼接-torch.cat() 格式： torch.cat(tensors, dim=0, out=None) → Tensor …

人工智能 2023年6月24日
0076
浅议开发者面临的信息偏差影响因素

概述题图来自互联网由于信源的缺乏或某种主观意识，使得我们容易陷入信息偏差，并进而影响了当下的决策。但我们或许能够感觉到信息偏差的存在，却也许不见得清楚这种信息偏差是如何产生的。…

人工智能 2023年6月11日
0099
R实战 | OPLS-DA（正交偏最小二乘判别分析)筛选差异变量(VIP)及其可视化

主成分分析（PCA）是一种无监督降维方法，能够有效对高维数据进行处理。但PCA对相关性较小的变量不敏感，而PLS-DA（偏最小二乘判别分析）能够有效解决这个问题。而OPLS-DA（…

人工智能 2023年7月16日
00106
基于批量OCR分析中传研究生录取名单

中国传媒大学一直是我向往的高校，但是众所周知中国传媒大学研究生录取是十分不透明的，复试参考资料、往年真题、报录比等等都不公开，官网的研究生录取名单是图片形式的，无法直接用网页搜索工…

人工智能 2023年6月11日
0060
web前端期末大作业 html+css+javascript化妆品网页设计实例企业网站制作

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月27日
00100
谷歌翻译工具新改版，支持全球51种语言翻译功能

2009年11月26日，谷歌宣布翻译工具(http://translate.g.cn 或者 http://翻译.g.cn)全新改版，除了整体产品界面全新上线外，新版还增加了包括实时…

人工智能 2023年5月25日
0082
为什么Diffusion Models钟爱U-net结构？

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0089
RuntimeError: CUDA error: no kernel image is available for execution on the device

导致的原因一般都是显卡算力和cuda或者torch版本不匹配比如在conda中安装的pytorch=1.5.0 cuda=10.2 错误：RuntimeError: CUDA e…

人工智能 2023年7月26日
0078
R语言dataframe分组数据汇总（aggregate and sum）：类似于excel的sumif函数

R语言dataframe分组数据汇总统计（aggregate and sum）：类似于excel的sumif函数目录 R语言dataframe分组数据汇总统计（aggregate…

人工智能 2023年7月18日
0056
语音识别之语音特征提取一

人工智能 2023年5月23日
0069
遥感图像目标检测研究综述

遥感图像目标检测遥感图像特殊性一、目标检测研究综述 * 1.介绍 2.传统目标检测 3.基于深度学习目标检测 – R-CNN系列为代表的两阶段算法 YOLO、SSD…

人工智能 2023年6月16日
0088
Rust权威指南之面向对象编程特性

一. 简述面向对象编程简称OOP，是一种程序建模的方法。面向对象编程又很多相互矛盾的定义，其中一部分定义能够把Rust归类为面向对象语言，而另一部分定义则并不这样认为。本章我们将…

人工智能 2023年7月30日
0044
知识图谱的应用领域

1.3 知识图谱的价值知识图谱最早的应用是提升搜索引擎的能力。随后，知识图谱在辅助智能问答、自然语言理解、大数据分析、推荐计算、物联网设备互联、可解释性人工智能等多个方面展现出丰…

人工智能 2023年7月28日
0089
图像处理算法总结之目标检测(1)

“目标检测也叫目标提取，是一种基于目标几何和统计特征的图像分割，它将目标的分割和识别合二为一，定位目标，确定目标位置及大小。”—百度百科目标检…

人工智能 2023年7月10日
0093

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31