数据分析 | Kmeans数据分析

2023年5月31日上午8:12 • 人工智能 • 阅读 92

1. 聚类步骤

2. 原理介绍

Kmeans聚类的目标函数：
J ( c 1 , c 2 , ⋯ , c k ) = ∑ j = 1 k ∑ i n j ( x i − c j ) 2 J(c_1,c_2,\cdots,c_k)=\sum_{j=1}^k\sum_i^{n_j}(x_i-c_j)^2 J (c 1 ,c 2 ,⋯,c k )=j =1 ∑k i ∑n j (x i −c j )2
即k个簇内样本的离差平方和之和达到最小。对目标函数求偏导（与k无关）
∂ J ∂ c j = ∑ i = 1 n j ( x i − c j ) 2 ∂ c j = ∑ i = 1 n j − 2 ( x i − c j ) \frac{\partial J}{\partial c_j}=\sum_{i=1}^{n_j}\frac{(x_i-c_j)^2}{\partial c_j}=\sum_{i=1}^{n_j}-2(x_i-c_j)∂c j ∂J =i =1 ∑n j ∂c j (x i −c j )2 =i =1 ∑n j −2 (x i −c j )
令导函数等于零：
c j = ∑ i = 1 n j x i n j = μ j c_j = \frac{\sum_{i=1}^{n_j}x_i}{n_j}=\mu_j c j =n j ∑i =1 n j x i =μj
故，我们需要求的是均值。

3. k值的选择

随着k值的增加，簇内离差平方和应该不断变小，直至趋向于0。

当簇内离差平方和所构成的折线图中，斜率由大突然变小，并且之后的斜率变化缓慢，则认为突然变化的点就是寻找的目标点。

python没有专门的库函数用于计算拐点，这里引用刘顺祥老师的自定义函数方案：

def k_SSE(X, clusters):

    K = range(1,clusters+1)

    TSSE = []
    for k in K:

        SSE = []
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(X)

        labels = kmeans.labels_

        centers = kmeans.cluster_centers_

        for label in set(labels):
            SSE.append(np.sum((X.loc[labels == label,]-centers[label,:])**2))

        TSSE.append(np.sum(SSE))

该方法考虑了簇的密集性与分散性两个信息，若数据集被分割为理想的k个簇，那么对应的簇内样本会很密集，而簇间样本会很分散，轮廓系数计算可表示为：
S ( i ) = b ( i ) − a ( i ) m a x ( a ( i ) , b ( i ) ) S(i)=\frac{b(i)-a(i)}{max(a(i),b(i))}S (i )=m a x (a (i ),b (i ))b (i )−a (i )
a ( i ) a(i)a (i )体现簇内的密集性，代表样本i与同簇内其他样本距离的平均值；b ( i ) b(i)b (i )反应了簇间的分散性，即样本i与其他非同簇样本点的距离的平均值，然后取其中的最小值。

当S ( i ) S(i)S (i )接近与-1时，说明样本i的分配不合理，需要将其分配到其他簇中；当S ( i ) S(i)S (i )近似为0时，说明样本i落在了模糊地带，即簇的边界；当S ( i ) S(i)S (i )近似为1时，说明样本i的分配是合理的。


def k_silhouette(X, clusters):
    K = range(2,clusters+1)

    S = []
    for k in K:
        kmeans = KMeans(n_clusters=k)
        kmeans.fit(X)
        labels = kmeans.labels_

        S.append(metrics.silhouette_score(X, labels, metric='euclidean'))

    plt.rcParams['font.sans-serif'] = ['Microsoft YaHei']
    plt.rcParams['axes.unicode_minus'] = False

    plt.style.use('ggplot')

    plt.plot(K, S, 'b*-')
    plt.xlabel('簇的个数')
    plt.ylabel('轮廓系数')

    plt.show()

k_silhouette(X, 15)

KMeans(n_cluster=8, init='k-means++', n_init=10,max_iter=300, tol=0.0001)

n_cluster：用于指定聚类的簇数
init：用于指定初始的簇中心设置方法，如果为’k-means++’，表示设置的初始簇中心之间相距较远；若为’random’，则表示从数据集中随机挑选k个样本作为初始簇中心；若为数组，则表示用户指定的具体簇中心。
n_init：指定Kmeans算法的运行次数，每次都会选择不同的簇中心，默认为10


players = pd.read_csv(r'players.csv')
players.head()


sns.lmplot(x = '得分', y = '命中率', data = players,
           fit_reg = False, scatter_kws = {'alpha':0.8, 'color': 'steelblue'})
plt.show()

from sklearn import preprocessing

X = preprocessing.minmax_scale(players[['得分','罚球命中率','命中率','三分命中率']])

X = pd.DataFrame(X, columns=['得分','罚球命中率','命中率','三分命中率'])

k_SSE(X, 15)


k_silhouette(X, 10)


kmeans = KMeans(n_clusters = 3)
kmeans.fit(X)

players['cluster'] = kmeans.labels_

centers = []
for i in players.cluster.unique():
    centers.append(players.ix[players.cluster == i,['得分','罚球命中率','命中率','三分命中率']].mean())

centers = np.array(centers)

sns.lmplot(x = '得分', y = '命中率', hue = 'cluster', data = players, markers = ['^','s','o'],
           fit_reg = False, scatter_kws = {'alpha':0.8}, legend = False)

plt.scatter(centers[:,0], centers[:,2], c='k', marker = '*', s = 180)
plt.xlabel('得分')
plt.ylabel('命中率')

plt.show()

Original: https://blog.csdn.net/weixin_63641425/article/details/123155573
Author: Ouroboroszzs
Title: 数据分析 | Kmeans数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549976/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【数据分析与挖掘实战】航空公司客户价值分析

1.案例背景二八定律： 20%的客户，为企业带来约80%的利益。在企业的客户关系管理中，对客户分类，区分不同价值的客户。针对不同价值的客户提供个性化服务方案，采取不同营销策略，…

人工智能 2023年6月19日
00123
买不起炼丹炉了：谈一谈特殊时期的显卡情况

原文首发于公主号「oldpan博客」-> 原文链接在此~ 前言前一阵子突然有了配主机的想法。呃，当然是为了搞深度学习。想象一下，亲手买下自己心仪的配件，然后用心组装起…

人工智能 2023年6月4日
0080
李沐精读GNN论文摘要

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档李沐精读GNN论文”A Gentle Introduction to Graph Neural Net…

人工智能 2023年7月14日
0035
计算机视觉方面的三大顶级会议：ICCV,CVPR,ECCV（统称ICE）

ICCV/CVPR/ECCV发论文的难度，相当于顶级SCI期刊和目前国内评价学术水平是以在学术期刊发表SCI论文的情况不一样，大家要注意：在计算机视觉方向，会议论文> …

人工智能 2023年7月25日
0085
【注意力机制集锦】Channel Attention通道注意力网络结构、源码解读系列一

Channel Attention网络结构、源码解读系列一 SE-Net、SK-Net与CBAM 1 SENet 原文链接：SENet原文源码链接：SENet源码 Squeeze-…

人工智能 2023年7月29日
0056
图像处理之图像直方图

图像处理之图像直方图 1、什么是图像灰度直方图？什么是直方图均衡化？什么是直方图规定化？灰度直方图：从数学上来说，图像直方图是描述图像的各个灰度级的统计特性，它是图像灰度值…

人工智能 2023年7月18日
0054
pytorch训练BERT模型实现文本分类的详细过程

之前对BERT的预训练过程做过详细解释，文章中的代码就是一段简洁的预训练Demo代码，对于了解BERT的预训练原理有很大帮助。然后对BERT+CRF的实体识别做过详解，在这篇中对…

人工智能 2023年7月22日
0040
元宇宙里的手势交互（三）地表最强的手势交互原理剖析（HoloLens 2）【下】

简介上篇文章提到，HoloLens手势识别最核心问题的是解决一个模型手拟合的问题，这篇文章会更深入地探讨这个优化问题更多细节和亮点。优化问题求解上篇文正已经详细阐述了Ener…

人工智能 2023年5月25日
0060
目标检测_利用tensorflow2官方案例-自定义训练目标进行人眼识别

我的数据集：说明：我的数据集一共1035张，并非通过手动标记得到，因此不包含xml文件包含：图片文件，train.csv,test.csv。（图片位置，标记位置，目标名称等）数…

人工智能 2023年5月26日
0063
mulesoft 核心知识点 summary

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0074
python3.6 的安装和numpy、opencv、pyrealsense2的安装

为了能够使用D435i相机的使用，进行准备工作，python3.6 的安装和numpy、opencv、pyrealsense2的安装。创建一个虚拟环境：为了方便管理，自己pyth…

人工智能 2023年7月20日
00154
【matlab图像处理】图像的算术运算实践

中国史之【推行国野制】：国野制产生于周初的武力征服，是西周的社会等级制度。国是统治宗族聚居的城郭和郊区，野则是被征服者散居的鄙野。国人享有一定的权利，是周朝军队的主力。野人的义务则…

人工智能 2023年6月20日
0083
论文笔记 EMNLP 2021|Lifelong Event Detection with Knowledge Transfer

文章目录 * – 1 简介 – + 1.1 创新 – 2 方法 – + 2.1 baseline + 2.2 新旧事件类型的知识迁移…

人工智能 2023年5月28日
00100
【基于机器学习的垃圾分类监控系统】

基于机器学习的垃圾分类监控系统一、摘要 abstract 正确处理厨余垃圾，可以有效地保护环境，并带来不错的经济效益。本文将机器学习运用到厨余垃圾的分类监控中，以识别混入其中的非…

人工智能 2023年7月1日
0067
torch.nn.Embedding()详解

一、语法格式 torch.nn.Embedding(num_embeddings, embedding_dim, padding_idx=None, max_norm=None, …

人工智能 2023年6月24日
00108
训练PyTorch模型遇到显存不足的情况怎么办

在跑代码的过程中，遇到了这个问题，当前需要分配的显存在600MiB以下 RuntimeError: CUDA out of memory. Tried to allocate 60…

人工智能 2023年7月21日
0047

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据分析 | Kmeans数据分析

1. 聚类步骤

2. 原理介绍

3. k值的选择

大家都在看