(笔记)K-means算法

2023年5月31日下午12:18 • 人工智能 • 阅读 74

K-means算法是常用的聚类算法：在给定K值和K个初始类簇中心点的情况下，首先把每个点（即数据记录）分配到离其最近的类簇中心点所代表的类簇中。其次根据一个类簇中内的所有点重新计算该类簇的中心点（取平均值）。然后再迭代的进行分配点和更新类簇中心点的步骤，直至类簇中心点的变化很小（即达到稳定状态，各类簇中数据点不再发生变化），或者达到指定的迭代次数为止。

算法主体

一、簇

1、簇的属性：簇中所有的数据点应彼此相似；

不同的簇中数据点尽可能不相同;

2、聚类的不同评估度量标准

聚类的主要目的不仅仅是创建簇，而是创建好的，有意义的簇。

有意义的簇评估标准：

标准一：Inertia标准

其实质是计算簇内所有点到簇的质心的距离总和，这个簇内距离总和被称为簇内距离（如下图所

示），而Inertia的最终值是这些簇内距离的总和，且Inertia试图最小化簇内距离，确保簇的紧凑性。

标准二：Dunn Index（邓恩指数）

除了簇内质心和各个数据点的距离，Dunn Index还考虑两个簇内质心的距离，这被称为簇间距离。

Dunn Index的值为簇间距离最小值与簇内距离最大值的比。

根据其标准，Dunn Index值越大，簇越好。即尽可能保证最小簇间距离尽可能大，最大簇内距离尽可能小。

K-means算法：

使用之前记得用pip 安装numpy 和 matplotlib

import pandas as pd
import numpy as np
import random as rd
import matplotlib.pyplot as plt

data = pd.read_csv('D:\BaiduNetdiskDownload\K-means算法代码及数据表\clustering.csv')#根据文件实际位置填写
data.head()

X = data[["LoanAmount","ApplicantIncome"]]
print(X)
#可视化
plt.scatter(X["ApplicantIncome"],X["LoanAmount"],c='black')
plt.xlabel('AnnualIncome')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

第1步：选择簇的个数
K=3
第2步：随机选择观察值作为簇心
Centroids = (X.sample(n=K))
plt.scatter(X["ApplicantIncome"],X["LoanAmount"],c='black')
plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red')
plt.xlabel('AnnualIncome')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

第3步：将所有点分配给到某个质心距离最近的簇
第4步：重新计算新形成的簇的质心
第5步：重复第三步和第四步

diff = 1
j=0

while(diff!=0):
    XD=X
    i=1
    for index1,row_c in Centroids.iterrows():
        ED=[]
        for index2,row_d in XD.iterrows():
            d1=(row_c["ApplicantIncome"]-row_d["ApplicantIncome"])**2
            d2=(row_c["LoanAmount"]-row_d["LoanAmount"])**2
            d=np.sqrt(d1+d2)
            ED.append(d)
        X[i]=ED
        i=i+1
    C=[]
    for index,row in X.iterrows():
        min_dist=row[1]
        pos=1
        for i in range(K):
            if row[i+1] < min_dist:
                min_dist = row[i+1]
                pos=i+1
        C.append(pos)
    X["Cluster"]=C
    Centroids_new = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]]
    if j == 0:
        diff=1
        j=j+1
    else:
        diff = (Centroids_new['LoanAmount'] - Centroids['LoanAmount']).sum() + (Centroids_new['ApplicantIncome'] - Centroids['ApplicantIncome']).sum()
        print(diff.sum())
    Centroids = X.groupby(["Cluster"]).mean()[["LoanAmount","ApplicantIncome"]]

color=['blue','green','cyan']
for k in range(K):
    data=X[X["Cluster"]==k+1]
    plt.scatter(data["ApplicantIncome"],data["LoanAmount"],c=color[k])
plt.scatter(Centroids["ApplicantIncome"],Centroids["LoanAmount"],c='red')
plt.xlabel('Income')
plt.ylabel('Loan Amount (In Thousands)')
plt.show()

运行结果：

数据集

https://download.csdn.net/download/m0_52854170/35405604?spm=1001.2014.3001.5503

Original: https://blog.csdn.net/m0_52854170/article/details/121022034
Author: 我心如凪
Title: (笔记)K-means算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550926/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【玩转Scikit-learn】机器学习工程师的浅入深出保姆级学习成长指南+变强规划+入门教程~

💖作者简介：大家好，我是车神哥，府学路18号的车神🥇⚡About—> 车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）📝个人主页：车手只需…

人工智能 2023年7月6日
0069
深度学习基础知识点（一）CNN卷积神经网络——1.卷积方面的原理

目录 1.感受野受哪几个参数的影响，计算感受野的大小？ 2.上采样方式subpixel，反卷积，resize 3.卷积核大小为什么是奇数？ 4.CNN为什么参数共享? 5.Dro…

人工智能 2023年6月20日
0089
一口气说出 Redis 16 个常见使用场景

1、缓存 String类型例如：热点数据缓存（例如报表、明星出轨），对象缓存、全页缓存、可以提升热点数据的访问数据。 2、数据共享分布式 String 类型，因为 Redis 是…

人工智能 2023年6月26日
0049
End-to-end Structure-Aware Convolutional Networks for Knowledge Base Completion

研究问题将图网络作为编码器，将Conv-TransE作为解码器，应用于知识图谱补全任务背景动机 ConvE模型在做卷积之前对embedding实施了reshape操作，并且没有…

人工智能 2023年6月1日
0074
47 VM.maxDirectMemory() 来自于哪里

前言最近在记一次 netty 内存泄露中有还有一些问题比如 java.nio.ByteBuffer 中分配空间的时候, 直接内存受限于 Bits.maxMemory 在 …

人工智能 2023年6月26日
0061
Tensorflow车牌识别完整项目（含完整源代码及训练集）

基于TensorFlow的车牌识别系统设计与实现，运用tensorflow和OpenCV的相关技术，实现车牌的定位、车牌的二值化、车牌去噪增强、图片的分割，模型的训练和车牌的识别等…

人工智能 2023年5月26日
0069
python+html实现前后端数据交互界面显示

最近刚刚开始学习如何将python后台与html前端结合起来，现在写一篇blog记录一下，我采用的是前后端不分离形式。话不多说，先来实现一个简单的计算功能吧，前端输入计算的数据，…

人工智能 2023年7月4日
0056
力扣（88.53）补8.31

88.合并两个有序数组我用暴力，也过了😏 class Solution {public void merge(int[] nums1, int m, int[] nums2, i…

人工智能 2023年6月28日
0062
Matlab 主成分分析与K均值聚类分析实验报告

Matlab 主成分分析与K均值聚类分析实验报告提示：数据资源在本CSDN号的上传资料中直接领取 1 引言数据：gyzb.mat（按顺序对应每一列）为：31个省市区的国有控股企…

人工智能 2023年7月15日
0055
【详细】Ubuntu18.04更新CUDA版本（以安装CUDA11.4为例）

CUDA安装官方教程：官方教程cuDNN安装官方教程：官方教程在配置Pytorch环境的时候，想着尝试一下新版本的pytorch版本Stable(1.10.1)时，发现这个pyt…

人工智能 2023年6月24日
00233
使用pytorch实现CNN

使用pytorch构建神经网络系列第四章使用pytorch实现CNN 目录使用pytorch构建神经网络系列 * 第四章使用pytorch实现CNN – 1.卷…

人工智能 2023年7月14日
0039
Python使用python-snap7实现西门子PLC通讯

Python简介 Python是开源的高级编程语言之一，广泛应用于人工智能、数据分析、爬虫等领域。由于它拥有大量的开源库和标准库，以及简单且贴近自然语言的语法，所以即便是从未接触过…

人工智能 2023年7月31日
0067
基于情感词典的网络文本情感倾向分类模型

目录前言一、模型构建 * 1.归类 2.判定 3.输出二、代码实现三、结果展示前言文本情感倾向性分析（也称为意见挖掘）是指识别和提取原素材中的主观信息，并对带有感情色彩…

人工智能 2023年7月3日
0046
python easygui怎么修改默认按钮名字

1.执行以下代码找到easygui安装位置 import easygui print(easygui.__file__) 2.打开上述路径下boxes文件夹下需要修改的组件如此时…

人工智能 2023年6月26日
0052
密度聚类算法DBSCAN实战及可视化分析

密度聚类算法DBSCAN实战及可视化分析目录密度聚类算法DBSCAN实战及可视化分析 DBSCAN实战及聚类效果可视化构建分类算法获得预测推理能力 DBSCAN实战及聚类效果…

人工智能 2023年6月2日
0071
Ubuntu20.04部署yolov5目标检测算法，无人车/无人机应用

在FireFly RK3588开发板上烧录了Ubuntu20.04系统，在此基础上线部署下简单的Python版本yolov5代码，目前博主已全部转为C++版本了，并且转化了pt模型…

人工智能 2023年7月29日
0069

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

(笔记)K-means算法

大家都在看