【笔记】KMeans聚类算法

2023年6月2日下午1:26 • 人工智能 • 阅读 107

文章目录

一、K-means算法原理
二、实战
*
2.1 聚类实例
2.2 聚类实践与常见错误
三、KMeans特征工程优化程度评价

一、K-means算法原理

聚类的概念:一种无监督的学习，事先不知道类别，自动将相似的对象归到同一个簇中。

K-Means算法是一种聚类分析(cluster analysis）的算法，其主要是来计算数据聚集的算法，主要通过不断地取离种子点最近均值的算法。

K-Means算法主要解决的问题如下图所示。我们可以看到，在图的左边有一些点，我们用肉眼可以看出来有四个点群，但是我们怎么通过计算机程序找出这几个点群来呢？于是就出现了我们的K-Means算法。

图解：

从上图中，我们可以看到，A，B，C，D，E是五个在图中点。而灰色的点是我们的种子点，也就是我们用来找点群的点。有两个种子点，所以K=2。
然后，K-Means的算法如下：

随机在图中取K（这里K=2）个种子点。
然后对图中的所有点求到这K个种子点的距离，假如点Pi离种子点Si最近，那么Pi属于Si点群。（上图中，我们可以看到A，B属于上面的种子点，C，D，E属于下面中部的种子点）
接下来，我们要移动种子点到属于他的”点群”的中心。（见图上的第三步）
然后重复第（2）和第（3）步，直到，种子点没有移动（我们可以看到图中的第四步上面的种子点聚合了A，B，C，下面的种子点聚合了D，E）。

总结：K-Means算法步骤：

从数据中选择k个对象作为初始聚类中心；
计算每个聚类对象到聚类中心的距离来划分；
再次计算每个聚类中心。
计算标准测度函数，直到达到最大迭代次数，则停止，否则，继续操作。
确定最优的聚类中心。

K-means聚类方法总结

优点：

解决聚类问题的经典算法，简单
当处理大数据集时，该算法保持可伸缩性和高效率（与神经网络比）
当簇近似正态分布时，效果较好

缺点：

在簇的平均值可被定义的情况下才能使用，可能不适用于某些应用
必须事先给出k（要生成簇的数目），而且对初值敏感，即对于不同的初值，可能会导致不同结果
不适合非凸形状的簇或者大小差别很大的簇
对噪声和孤立点敏感

聚类算法应用举例

文档分类器
根据标签、主题和文档内容将文档分为多个不同的类别。这是一个非常标准且经典的K-means算法分类问题。首先，需要对文档进行初始化处理，将每个文档都用矢量来表示，并使用术语频率来识别常用术语进行文档分类，这一步很有必要。然后对文档向量进行聚类，识别文档组中的相似性。
客户分类
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:09ac4a7b-27ff-491f-a3e1-1fe4bd094b8b

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:f05e08e3-b97e-4c9e-a802-e115dc006911
保险欺诈检测
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:558ccc15-352f-406d-bcc9-b681d647da92

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:8c2810df-0359-4770-9b32-a0a7feab9799
乘车数据分析
面向大众公开的uber乘车信息的数据集，为我们提供了大量关于交通、运输时间、高峰乘车地点等有价值的数据集。分析这些数据不仅对uber大有好处，而且有助于我们对城市的交通模式进行深入的了解，来帮助我们做城市未来规划。

; 二、实战

重要参数：

n_clusters：聚类的个数

重要属性：

cluster_centers_：[n_clusters, n_features]的数组，表示聚类中心点的坐标
labels_：每个样本点的标签

2.1 聚类实例

（1）聚类的基本使用

import numpy as np
import pandas as pd
import pyecharts.options as opts
import matplotlib.pyplot as plt
import seaborn as sns
from pyecharts.charts import Scatter

from sklearn.datasets import make_blobs

X, y = make_blobs(
    n_samples=150,
    n_features=2,
    centers=3,
    cluster_std=1.5,
    random_state=2
)

def add_data(pic, X_data, y_data, symbol='circle', symbol_size=10):
    X_data = pd.DataFrame(X_data).copy()
    y_data = pd.Series(y_data).copy()
    for i in y_data.drop_duplicates():
        pic.add_xaxis(xaxis_data=X_data.loc[y_data == i].iloc[0:, 0].tolist())
        pic.add_yaxis(
            series_name=i,
            y_axis=X_data.loc[y_data == i].iloc[0:, 1].tolist(),
            symbol_size=symbol_size,
            symbol=symbol,
            label_opts=opts.LabelOpts(is_show=False)
        )

import pyecharts.options as opts
from pyecharts.charts import Scatter, Grid
from pyecharts.globals import ThemeType

m_scatter = Scatter(init_opts=opts.InitOpts(width="400px", height="400px", theme=ThemeType.LIGHT))
add_data(m_scatter, X, y)
m_scatter.set_series_opts()
m_scatter.set_global_opts(
    xaxis_opts=opts.AxisOpts(
        type_="value",
        name="x1",
        splitline_opts=opts.SplitLineOpts(is_show=True)
    ),
    yaxis_opts=opts.AxisOpts(
        type_="value",
        name="x2",
        axistick_opts=opts.AxisTickOpts(is_show=True),
        splitline_opts=opts.SplitLineOpts(is_show=True)
    ),
    tooltip_opts=opts.TooltipOpts(is_show=False),
)
m_scatter.render_notebook()


from sklearn.cluster import KMeans

km = KMeans(n_clusters=3)

y_ = km.fit_predict(X)

cluster_centers = km.cluster_centers_
cluster_centers

"""
array([[ 1.58887503, -1.06495221],
       [-1.62473796, -9.4792349 ],
       [-1.80632868, -3.67173199]])
"""

m_scatter2 = Scatter(init_opts=opts.InitOpts(width="400px", height="400px", theme=ThemeType.LIGHT))

add_data(m_scatter2, X, y)
add_data(m_scatter2, cluster_centers, [4, 4, 4], symbol='triangle', symbol_size=20)
m_scatter2.set_series_opts()
m_scatter2.set_global_opts(
    xaxis_opts=opts.AxisOpts(
        type_="value",
        name="x1",
        splitline_opts=opts.SplitLineOpts(is_show=True)
    ),
    yaxis_opts=opts.AxisOpts(
        type_="value",
        name="x2",
        axistick_opts=opts.AxisTickOpts(is_show=True),
        splitline_opts=opts.SplitLineOpts(is_show=True)
    ),
    tooltip_opts=opts.TooltipOpts(is_show=False),
)
grid = Grid(init_opts=opts.InitOpts(width="700px", height="800px", theme=ThemeType.VINTAGE))
grid.add(m_scatter, grid_opts=opts.GridOpts(pos_bottom="60%"))
grid.add(m_scatter2, grid_opts=opts.GridOpts(pos_top="60%"))

grid.render_notebook()

（2）足球队分群

data = pd.read_csv('data/AsiaZoo.txt', header=None)
data

data.columns=['国家', '2006世界杯', '2010世界杯', '2007亚洲杯']

from mpl_toolkits.mplot3d import Axes3D

sns.set_style(style='white')

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

X = data.iloc[:, 1:]
X

km = KMeans(n_clusters=3)

y_ = km.fit_predict(X)

plt.figure(figsize=(10,6))

ax = plt.subplot(projection='3d')

ax.scatter3D(data['2006世界杯'],data['2010世界杯'],data['2007亚洲杯'],s=200,c=y_,alpha = 1)
ax.set_xlabel('2006世界杯')
ax.set_ylabel('2010世界杯')
ax.set_zlabel('2007亚洲杯')

plt.show()

data['类别'] = y_
data

for i in range(3):
    print(' '.join(data[data['类别']==i]['国家'].tolist()))
"""
中国 伊拉克 卡塔尔 阿联酋 泰国 越南 阿曼 印尼
日本 韩国
伊朗 沙特 乌兹别克斯坦 巴林 朝鲜
"""

附录：

RFM模型案例

金融欺诈风险评估

2.2 聚类实践与常见错误

使用make_blobs创建样本点

第一种错误，k值不合适，make_blobs默认中心点三个


X, y = make_blobs(n_samples=150, n_features=2, centers=3, random_state=2, cluster_std=2)

sns.set()

def show_scatter(X, y):
    plt.scatter(X[:,0], X[:,1], c=y, cmap=plt.cm.Accent)
    plt.show()

show_scatter(X, y)

km = KMeans(n_clusters=2)

y_ = km.fit_predict(X)

def show_predict(X, y, y_):
    plt.figure(figsize=(12, 4))
    plt.subplot(121)
    plt.scatter(X[:,0], X[:,1], c=y, s=100, cmap=plt.cm.Accent)
    plt.title('True data')

    plt.subplot(122)
    plt.scatter(X[:,0], X[:,1], c=y_, s=100, cmap=plt.cm.afmhot)
    plt.title('KMeans')

    plt.show()

show_predict(X, y, y_)

第二种错误，数据偏差 trans = [[0.6, -0.6], [-0.4, 0.8]] x2 = np.dot(X, trans)


trans = [[0.6,-0.6],[-0.4,0.8]]
X1 = np.dot(X,trans)

show_scatter(X1, y)


km2 = KMeans(n_clusters=3)

y2 = km2.fit_predict(X1)

show_predict(X, y, y2)

第三个错误：标准偏差不相同cluster_std 所以一定要在聚类之前，做数据的无量纲处理


X3, y3 = make_blobs(n_samples=150, n_features=2, random_state=2, cluster_std=[1, 2, 4])

show_scatter(X3, y3)


km3 = KMeans(n_clusters=3)

y3_ = km3.fit_predict(X3)

show_predict(X3, y3, y3_)


from sklearn.preprocessing import MinMaxScaler, StandardScaler

ss_X3 = StandardScaler().fit_transform(X3)
ss_X3.std(axis=0)

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:35106ebc-33bb-4346-a5cd-1c0675693ab1

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:979d7eca-e2d9-42c6-8fda-67d2d4de6a96

X, y = make_blobs(n_samples=1500, n_features=2, centers=3, random_state=5)

XA = X[y==0][:100]
XB = X[y==1][:35]
XC = X[y==2][:15]

XX = np.concatenate((XA, XB, XC))
XX.shape

y = np.array([0] * 100 + [1] * 35 + [2] * 15)

show_scatter(XX, y)


km4 = KMeans(n_clusters=3)

y4_ = km4.fit_predict(XX)

show_predict(XX, y, y4_)

三、KMeans特征工程优化程度评价

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:a233c30c-33ce-4d06-bf9a-7485765f39d8

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:cf1016eb-0e6e-4683-9002-e32c0a3da66c

s = d i s M e a n o u t − d i s M e a n i n m a x ( d i s M e a n o u t , d i s M e a n i n ) \Large s=\frac {disMean_{out}-disMean_{in}} {max(disMean_{out}, disMean_{in})}s =ma x (d i s M e a n o u t ,d i s M e a n in )d i s M e a n o u t −d i s M e a n in

其中d i s M e a n i n disMean_{in}d i s M e a n in 为该点与本类其他点的平均距离，d i s M e a n o u t disMean_{out}d i s M e a n o u t 为该点与非本类点的平均距离。

该值取值范围为[-1, 1]，越接近1则说明聚类越优秀。

在sklearn中函数silhouette_score()计算所有点的平均轮廓系数，而silhouette_samples()返回每个点的轮廓系数。

from sklearn.metrics import silhouette_score
from sklearn.metrics import silhouette_samples

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:119a3973-0632-4126-8bd0-a593eab5d6da

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:098e406e-e91f-45a5-82c7-52e43615d404

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:e176520b-d533-40e3-931d-6536765f8dec

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:83aa9fcd-5f11-43f1-94c6-4574cd4e64e0


from sklearn.metrics import silhouette_score

kmeans = KMeans(n_clusters=3)

y_ = kmeans.fit_predict(X)

silhouette_score(X, y_)

def show_cluster_edge(kmeans, X):
    xmin, xmax = X[:, 0].min(), X[:, 0].max()
    ymin, ymax = X[:, 1].min(), X[:, 1].max()

    x = np.linspace(xmin, xmax, 200)
    y = np.linspace(ymin, ymax, 200)
    xx, yy = np.meshgrid(x, y)

    kmeans.fit(X)

    X_test = np.c_[xx.ravel(), yy.ravel()]
    y_ = kmeans.predict(X)
    y1_ = kmeans.predict(X_test)

    plt.scatter(X_test[:,0], X_test[:,1], c=y1_, s=100, cmap=plt.cm.Accent)
    plt.scatter(X[:,0], X[:,1], c=y_, s=100, cmap=plt.cm.afmhot)

    plt.title('silhouette_score:%.4f'%(silhouette_score(X, y_)))
    plt.show()

kmeans = KMeans(n_clusters=3)
show_cluster_edge(kmeans, X)

Original: https://blog.csdn.net/SpriteNym/article/details/125895573
Author: Sprite.Nym
Title: 【笔记】KMeans聚类算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561050/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

多元统计分析小总结 python实现

元：数学上称变量为元一元统计分析：一个变量(标志值或指标)的统计分析理论和方法(单个随机变量𝑋 ) 多元统计分析：主要讲授多变量统计理论和方法(随机向量𝑋=(𝑋1, 𝑋2, &#…

人工智能 2023年6月16日
0068
移动心理测评系统：心理健康评估、抑郁筛查、心理学量表

河南永硕实业发展有限公司成立于2009年，是一家专注于心理学及教育产品研发与应用的高科技企业，是一家纯粹的信息技术型高新技术企业。永硕公司立足于大数据、云计算，瞄准移动互联网应用为…

人工智能 2023年7月17日
0061
【模板】MST最小生成树（Prim算法、Krustra算法）

给一张n个点的图，从中选 n-1条边，使得所选边权和最小的情况下生成一个树。解法核心：贪心 1、核心思路：点集拓展 2、核心操作：贪心（优先队列实现） + 判环（集合/标记实现…

人工智能 2023年6月29日
0065
学习笔记——《知识图谱导论》陈华钧第一章·知识图谱概述

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0080
PaddleOCR学习（一）PaddleOCR安装与测试

各种OCR算法试了一圈，还是PaddleOCR比较完善，集成度高，而且各种调试、测试、各种backbone的更改都要方便许多，非常的接地气。网上也有许多paddleocr的相关教程…

人工智能 2023年7月5日
0071
CV — 目标检测：数据增强

一、相关概念不同的图像任务中，数据增强的方式也有所不同。相比于图像分类，目标检测中的数据增强需要同时考虑图像和边界框的变换。在目标检测中，数据增强又分为两个大类：针对图像中的…

人工智能 2023年7月11日
0054
【强化学习】Deep Q Network深度Q网络（DQN）

1 DQN简介 1.1 强化学习与神经网络该强化学习方法是这么一种融合了神经网络和Q-Learning的方法，名字叫做Deep Q Network。Q-Learning使用表格来…

人工智能 2023年7月13日
0040
【吴恩达deeplearning.ai】Course 5 – 序列模型 – 第一周测验

总结习题第 141 题假设你的训练样本是句子(单词序列)，下面哪个选项指的是第i个训练样本中的第j个词? A.x ( i ) < j > x^{(i)x (i )…

人工智能 2023年5月27日
0060
tf.squeeze()与tf.expand_dims()

tf.squeeze()与tf.expand_dims()在变换维度时经常使用，今天来做下总结记录。 tf.squeeze(a,-1)与tf.expand_dims(a,-1)这里…

人工智能 2023年5月25日
0048
图像识别（九）| 彻底搞懂SoftMax分类的底层逻辑

大家好啊，我是董董灿。很多同学在做深度学习时，都会遇到难以理解的算法，SoftMax肯定是其中一个。初学者大都对它一知半解，只知道SoftMax可以用来做分类，输出属于某个类别的…

人工智能 2023年7月1日
0082
改进YOLOv5, YOLOv7系列：1.YOLO超全注意力机制汇总 | S2A, SE,SimAM, SKA,ShA, SOCA, CA, CBAM, CrissCrossA, NAM, GAM等

💡统一使用 YOLOv5 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🌟本项目包含大量的改进方式,降低改进难度,改进点包含 【Backbone…

人工智能 2023年7月9日
0049
python视频操作——python实现读取和保存视频

python读取和保存视频内容来自博客+博客~ 读取视频用cv2库的好处是返回的就是arrary，不用转换，但这种方法是从头读到尾利用cv2库读取视频，代码实现如下： imp…

人工智能 2023年5月26日
0071
【机器学习】分类（classification）与回归（regression）任务区别及常用模型

在机器学习任务中，主要解决的目标分为两种：在进行机器学习之前，一般要先搞清楚自己的问题背景是分类任务还是回归任务，然后再采用相对应的模型。分类和回归的区别可以从多个角度进行描述…

人工智能 2023年6月18日
0090
【广告技术】使用图神经网络进行信息聚合与推理，解决多证据事实验证问题

【Wiztalk腾讯广告专场】系列分享来袭，第三期由清华大学计算机系副教授、博士生导师刘知远老师与清华大学计算机系硕士生周界为大家深度介绍《基于图结构的事实验证》。从浅显的文本…

人工智能 2023年6月1日
0075
使用Vivado HLS进行图像处理的一些个人总结

文章目录前言一、什么是HLS? 二、入门HLS 1.如何学习HLS 2.如何编写HLS 三、用HLS处理图像 1.HLS主函数的编写 2.testbench编写 3.HLS优化…

人工智能 2023年6月20日
0069
Hive实战 —— 利用Hive进行数据分析并将分析好的数据导出到mysql数据库中

🙆‍♂️🙆‍♂️ 写在前面 🏠 个人主页：csdn春和📚 推荐专栏：更多专栏尽在主页！JavaWeb专栏（从入门到实战超详细！！！）SSM专栏（更新中…）📖 …

人工智能 2023年7月15日
0066

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【笔记】KMeans聚类算法

文章目录

2.1 聚类实例

2.2 聚类实践与常见错误

大家都在看