聚类算法——kmeans

2023年5月31日上午7:31 • 人工智能 • 阅读 140

聚类属于无监督学习：训练数据中只有x没有y

聚类算法又叫无监督分类，目标是将数据划分为有意义的簇，将所有样本按照K个质心进行聚类

质心：一类坐标的平均点

聚类过程：先随机选取K个质心，根据质心生成簇，计算簇的质心，找到新的质心，直到簇与质心不在变化，聚类完成

聚类与分类：

聚类：在未知数据上进行划分，无监督

分类：已知数据进行划分，有监督

聚类使用场景：使用聚类找到同类客户，实现精准营销

聚类中使用距离衡量样本之间的相似性，簇中样本距离越小样本相似度高

kmeans中通常使用欧几里得距离，在文本处理中通常使用余弦距离

盲点：在聚类中没有损失函数的说法，损失函数只有在需要求参数的模型中使用，不求参数的模型不适用损失函数

n_clusters表示聚类的数量，是聚类中的重要参数

聚类模型评估：(主要依据实际业务）使用轮廓系数

轮廓系数：计算簇内差异与簇间差异，表示范围是[-1,1],越大说明效果越好

代码实例：

from sklearn.datasets import make_blobs
import matplotlib.pyplot as plt

x,y = make_blobs(n_samples=500,n_features=2,centers=4,random_state=1) #&#x81EA;&#x5DF1;&#x521B;&#x5EFA;&#x6570;&#x636E;&#x96C6;500&#x4E2A;&#x6570;&#x636E;&#xFF0C;&#x4E8C;&#x7EF4;&#x6570;&#x636E;&#xFF0C;&#x5177;&#x6709;&#x968F;&#x673A;&#x6027;&#x4F7F;&#x7528;random_state&#x56FA;&#x5B9A;&#x6570;&#x636E;

在进行聚类之前，查看数据

plt.scatter(x[:,0],x[:,1]
,marker = "o"
,s = 8

)
plt.show()

from sklearn.cluster import KMeans
cluster = KMeans(n_clusters = 3,random_state=1).fit(x)  #&#x805A;&#x7C7B;&#x4E2A;&#x6570;&#x4E3A;3&#xFF0C;&#x5B9E;&#x5217;&#x5316;+&#x8BAD;&#x7EC3;
y = cluster.labels_  #&#x67E5;&#x770B;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x805A;&#x7C7B;&#x7ED3;&#x679C;
y   #&#x5728;&#x7ED3;&#x679C;&#x672A;&#x77E5;&#x4E0B;&#x6240;&#x9884;&#x6D4B;&#x6837;&#x672C;&#x7ED3;&#x679C;

聚类模型时间长，所以在大数据进行聚类时，通常使用fit先进行小部分数据聚类，在使用fit_predict对聚类结果进行合并。

cen = cluster.cluster_centers_  #&#x751F;&#x6210;3&#x4E2A;&#x7C07;&#xFF0C;&#x67E5;&#x770B;3&#x4E2A;&#x8D28;&#x5FC3;
cen

可以使用inertia_函数查看簇的距离平方和，但是效果不如轮廓系数。

将聚类结果可视化

color = ["red","pink","orange","gray"]
for i in range(3):           #&#x67E5;&#x770B;&#x805A;&#x7C7B;&#x7ED3;&#x679C;
    plt.scatter(x[y==i,0],x[y==i,1]
    ,marker = "o"
    ,s = 8
    ,c = color[i]
    )

plt.scatter(cen[:,0],cen[:,1]   #&#x67E5;&#x770B;&#x8D28;&#x5FC3;&#x7ED3;&#x679C;
            ,marker = "o"
            ,s = 8
            ,c = "black"
           )

使用silhouette轮廓系数进行模型评估

from sklearn.metrics import silhouette_score  #&#x5E73;&#x5747;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;
from sklearn.metrics import silhouette_samples #&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x662F;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;

silhouette_score(x,y)  #&#x8FD4;&#x56DE;&#x5E73;&#x5747;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;

silhouette_samples(x,y)  #&#x8FD4;&#x56DE;&#x6BCF;&#x4E2A;&#x6837;&#x672C;&#x7684;&#x8F6E;&#x5ED3;&#x7CFB;&#x6570;&#xFF0C;&#x6C42;&#x5747;&#x503C;&#x4E3A;silhoue_score

也可以使用卡林斯基—哈拉巴斯指数进行评估，优点：速度比轮廓系数快

from sklearn.metrics import calinski_harabasz_score
calinski_harabasz_score(x,y) #&#x8BC4;&#x4F30;&#x6307;&#x6570;&#x8D8A;&#x5927;&#x8D8A;&#x597D;

Original: https://blog.csdn.net/m0_57210162/article/details/122451589
Author: 单手法拉利
Title: 聚类算法——kmeans

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549774/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

在语音识别中，如何解决患者模糊的发音问题

问题介绍在语音识别任务中，患者的发音可能存在模糊或不准确的问题，这会导致语音识别系统的性能下降。因此，我们需要解决患者模糊发音的问题，提高语音识别的准确率。算法原理为了解决患…

人工智能 2024年1月3日
0030
Anaconda中快速安装Tensorflow与Keras并在pycharm中完成相应配置（win10cpu版）

我的基本情况与安装目标：win10+Anaconda3+Python3.7环境，想要安装好CPU版本Keras框架，选择安装方法为：先安装Tensorflow（CPU版）再安装ke…

人工智能 2023年5月25日
00104
CleanMyMac X2023免费清理苹果电脑Mac磁盘空间

CleanMyMac X2023只需两个简单步骤就可以把系统里那些乱七八糟的无用文件统统清理掉，节省宝贵的磁盘空间。CleanMyMac X2023，X代表界面上的最大升级，功能方…

人工智能 2023年6月29日
0072
MATLAB神经网络——BP神经网络训练过程介绍（newff）

1.newff网络的详细解释设置前馈长度 ff_zeros=zeros(1,ff_TDL); 设置神经网络输入数据，此处input表示输入数据 training_input=in…

人工智能 2023年6月15日
0071
机器学习 | MATLAB实现RF(随机森林)TreeBagger分类树参数设定

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
0072
异常检测FastFlow论文详解

FastFlow 论文链接 https://arxiv.org/pdf/2111.07677v2.pdf Figure 1 : FastFlow的一个例子。 FastFlow将输入…

人工智能 2023年6月25日
0064
PIL，cv2读取类型及转换，以及PIL，numpy，tensor格式以及cuda，cpu的格式转换

PIL，cv2读取类型，以及PIL，numpy，tensor格式以及cuda，cpu的格式转换一、PIL，cv2读取数据图片以及之间的转换二、PIL，数组类型以及tensor类…

人工智能 2023年5月28日
0082
【目标检测】YOLOv3-SPP ，在YOLOv3中增加SPP模块

文章目录 * – 一、YOLOv3模型结构 – 二、YOLOv3-SPP模型结构 – 三、SPP模块 – 四、对YOLOv3-SPP…

人工智能 2023年6月25日
0079
基于FPGA的LSTM加速器设计（MNIST数据集为例）

摘要本文以MNIST手写数字识别任务为例，使用FPGA搭建了一个LSTM网络加速器，并选取MNIST数据集中的10张图片，通过vivado软件进行仿真验证。实验结果表明，本文设计…

人工智能 2023年7月12日
0089
matplotlib show, ion, ioff, clf, pause的作用

matplotlib画图时经常涉及ion, ioff, pause, show这几个函数的作用，这里记录一下。在python中，matplotlib默认使用阻塞模式(block)…

人工智能 2023年6月30日
0084
解决CUDA driver version is insufficient for CUDA runtime version

项目场景： conda环境下运行tensorflow代码，配置环境如下：tensorflow==>1.11cuda==>9.2cudnn==>7.13Driver…

人工智能 2023年5月26日
00203
深度学习-LSTM预测未来值

** 用LSTM进行多输出预测 **本文基于LSTM使用六小时（360分钟）的数据来预测10分钟后的发电量，主要就是讲解一下写代码过程中遇到的一些不太懂的地方，供同为萌新的参考，已…

人工智能 2023年7月14日
0072
大数据分析-第九章知识图谱

Lecture9-知识图谱知识图谱知识图谱概念知识图谱内涵知识图谱优势知识图谱价值典型知识图谱知识图谱概念知识图谱(Knowledge Graph)本质上是一种大…

人工智能 2023年6月1日
0097
手把手教你玩转YOLOX–（下）数据集标注及训练

数据集的标注是做训练的重要一环，本次数据集标注以口罩检测为例，介绍使用labelimg的数据标注，并且使用YOLOX进行训练。我们从百度网上搜了一些图片，我们就拿这些图片进行标注并…

人工智能 2023年6月16日
00199
监督学习-判别学习算法和生成学习算法

从云盘上翻到之前期末复习做的思维导图。判别学习算法和生成学习算法都属于监督学习，前者包含了我们熟知的线性回归、逻辑回归等，后者则以朴素贝叶斯较为著名。主要参考了吴恩达的CS229，…

人工智能 2023年6月4日
0068
机器学习数据预处理之缺失值：预测填充（回归模型填充、分类模型填充）

garbage in, garbage out. 没有高质量的数据，就没有高质量的数据挖掘结果，数据值缺失是数据分析中经常遇到的问题之一。当缺失比例很小时，可直接对缺失记录进行舍弃…

人工智能 2023年7月3日
00151

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类算法——kmeans

大家都在看