机器学习之聚类算法Kmeans及其应用，调用sklearn中聚类算法以及手动实现Kmeans算法。

2023年6月2日上午9:29 • 人工智能 • 阅读 77

机器学习之聚类算法Kmeans及其应用，调用sklearn中聚类算法以及手动实现Kmeans算法。

文章目录

实现Kmeans算法实现聚类
*
读取文件
手动实现Kmeans算法
处理数据
绘制数据散点图
绘制聚类中心
调用sklearn中聚类算法
绘制k-Means聚类结果
对比效果：
整合代码：

; 实现Kmeans算法实现聚类

要求：
1、根据算法流程，手动实现Kmeans算法；
2、调用sklearn中聚类算法，对给定数据集进行聚类分析；
3、对比上述2中Kmeans算法的聚类效果。

读取文件

def loadFile(path):
    dataList = []

    fr = open(path,"r",encoding='UTF-8')
    record = fr.read()
    fr.close

    recordList = record.splitlines()

    for line in recordList:
         if line.strip():
             dataList .append(list(map(float, line.split('\t'))))

    recordmat = np.mat(dataList )
    return recordmat

手动实现Kmeans算法

def kMeans(dataset, k):
    m = np.shape(dataset)[0]
    ClustDist = np.mat(np.zeros((m, 2)))
    cents = randCents(dataset, k)
    clusterChanged = True

    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            DistList = [distEclud(dataset[i, :], cents[jk,:]) for jk in range(k)]
            minDist = min(DistList)
            minIndex = DistList.index(minDist)

            if ClustDist[i, 0] != minIndex:
                clusterChanged = True
            ClustDist[i, :] = minIndex, minDist

        for cent in range(k):
            ptsInClust = dataset[np.nonzero(ClustDist[:, 0].A == cent)[0]]

            cents[cent, :] = np.mean(ptsInClust, axis=0)

    return cents, ClustDist

处理数据

path_file = "TESTDATA.TXT"
recordMat = loadFile(path_file)
k = 4

cents, distMat = kMeans(recordMat, k)

绘制数据散点图

plt.subplot(311)
plt.grid(True)
for indx in range(len(distMat)):
    if distMat[indx, 0] == 0:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='red', marker='o')
    if distMat[indx, 0] == 1:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='blue', marker='o')
    if distMat[indx, 0] == 2:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='cyan', marker='o')
    if distMat[indx, 0] == 3:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='green', marker='o')

绘制聚类中心

x = [cents[i,0] for i in range(k)]
y = [cents[i,1] for i in range(k)]
plt.scatter(x, y, s = 80, c='yellow', marker='o')
plt.title('Kmeans')

调用sklearn中聚类算法

from sklearn.cluster import KMeans
X = np.array(recordMat)

kmeans_model = KMeans(n_clusters=k, init='random')
kmeans_model.fit(X)

绘制k-Means聚类结果


plt.subplot(312)
plt.axis([np.min(X[:,0])-1, np.max(X[:,0]+1), np.min(X[:,1])-1, np.max(X[:,1])+1])
plt.grid(True)

colors = ['r', 'g', 'b','c']
markers = ['o', 's', 'D', '+']
for i, l in enumerate(kmeans_model.labels_):
    plt.plot(X[i][0], X[i][1], color=colors[l],marker=markers[l],ls='None')
    plt.title('K = %s,random' %(k))

对比效果：

; 整合代码：

import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import KMeans

def loadFile(path):
    dataList = []

    fr = open(path,"r",encoding='UTF-8')
    record = fr.read()
    fr.close

    recordList = record.splitlines()

    for line in recordList:
         if line.strip():
             dataList .append(list(map(float, line.split('\t'))))

    recordmat = np.mat(dataList )
    return recordmat

def distEclud(vecA, vecB):
    return np.linalg.norm(vecA-vecB, ord=2)

def randCents(dataSet, k):
    n = np.shape(dataSet)[1]
    cents = np.mat(np.zeros((k,n)))
    for j in range(n):

        minCol = min(dataSet[:,j])
        maxCol = max(dataSet[:,j])

        cents [:,j] = np.mat(minCol + float(maxCol - minCol) * np.random.rand(k,1))
    return cents

def kMeans(dataset, k):
    m = np.shape(dataset)[0]
    ClustDist = np.mat(np.zeros((m, 2)))
    cents = randCents(dataset, k)
    clusterChanged = True

    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            DistList = [distEclud(dataset[i, :], cents[jk,:]) for jk in range(k)]
            minDist = min(DistList)
            minIndex = DistList.index(minDist)

            if ClustDist[i, 0] != minIndex:
                clusterChanged = True
            ClustDist[i, :] = minIndex, minDist

        for cent in range(k):
            ptsInClust = dataset[np.nonzero(ClustDist[:, 0].A == cent)[0]]

            cents[cent, :] = np.mean(ptsInClust, axis=0)

    return cents, ClustDist

path_file = "TESTDATA.TXT"
recordMat = loadFile(path_file)
k = 4

cents, distMat = kMeans(recordMat, k)

plt.subplot(311)
plt.grid(True)
for indx in range(len(distMat)):
    if distMat[indx, 0] == 0:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='red', marker='o')
    if distMat[indx, 0] == 1:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='blue', marker='o')
    if distMat[indx, 0] == 2:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='cyan', marker='o')
    if distMat[indx, 0] == 3:
        plt.scatter(recordMat[indx, 0], recordMat[indx, 1], c='green', marker='o')

x = [cents[i,0] for i in range(k)]
y = [cents[i,1] for i in range(k)]
plt.scatter(x, y, s = 80, c='yellow', marker='o')
plt.title('Kmeans')

X = np.array(recordMat)

plt.subplot(312)
plt.axis([np.min(X[:,0])-1, np.max(X[:,0]+1), np.min(X[:,1])-1, np.max(X[:,1])+1])
plt.grid(True)

colors = ['r', 'g', 'b','c']
markers = ['o', 's', 'D', '+']

kmeans_model = KMeans(n_clusters=k, init='random')
kmeans_model.fit(X)

for i, l in enumerate(kmeans_model.labels_):
    plt.plot(X[i][0], X[i][1], color=colors[l],marker=markers[l],ls='None')
    plt.title('K = %s,random' %(k))

X = np.array(recordMat)

plt.subplot(313)
plt.axis([np.min(X[:,0])-1, np.max(X[:,0]+1), np.min(X[:,1])-1, np.max(X[:,1])+1])
plt.grid(True)

colors = ['r', 'g', 'b','c']
markers = ['o', 's', 'D', '+']
kmeans_model = KMeans(n_clusters=k, init='k-means++')

kmeans_model.fit(X)

for i, l in enumerate(kmeans_model.labels_):
    plt.plot(X[i][0], X[i][1], color=colors[l],marker=markers[l],ls='None')
    plt.title('K = %s,k-means++' %(k))

plt.show()

Original: https://blog.csdn.net/qq_46556714/article/details/124893860
Author: 南蓬幽
Title: 机器学习之聚类算法Kmeans及其应用，调用sklearn中聚类算法以及手动实现Kmeans算法。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/560434/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

深度学习番外——Yolov5服务器环境搭建

文章目录 * – 1 服务器搭建yolov5环境 – + 1.1 创建环境 + 1.2 跟随官方指引 – 2 下载预训练权重 – 3…

人工智能 2023年7月9日
0084
plotly 坐标轴(axes)设置

坐标轴设置 axes import plotly.io as pio import plotly.express as px import plotly.graph_objects…

人工智能 2023年7月5日
00340
CE Loss与BCE Loss的区别

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月6日
0079
初识知识图谱

有应用价值的对话系统，需要引入外部知识辅助决策分析知识图谱就是结构化的语义知识库，是一种基于图的数据结构，用于描述物理世界中的概念及其相互关系。既然是图就有边和节点，边指的是事物之…

人工智能 2023年6月5日
0082
图神经网络系列-知识图谱Neo4j-图神经网络案例实战

### 回答1： Spring Boot Neo4j 是一个基于 Spring Boot 框架的 Neo4j 图_数据库应用程序开发框架。它提供了一 _系列_的 API 和工具，帮…

人工智能 2023年6月1日
0068
[Python从零到壹] 十六.文本挖掘之词云热点与LDA主题分布分析万字详解

欢迎大家来到”Python从零到壹”，在这里我将分享约200篇Python系列文章，带大家一起去学习和玩耍，看看Python这个有趣的世界。所有文章都将结合…

人工智能 2023年5月27日
0091
班级校园网页设计作业静态HTML我的班级网页 DW班级网站模板下载大学生简单班级网页作品代码我的大学网页制作学生班级网页设计作业

🎉精彩专栏推荐 💭文末获取联系✍️ 作者简介: 一个热爱把逻辑思维转变为代码的技术博主💂 作者主页: 【主页——🚀获取更多优质源码】🎓 web前端期末大作业：【📚毕设项目精品实战…

人工智能 2023年6月28日
0094
AI算法部署时如何进行集成和测试

题目：AI算法部署时的集成和测试在将AI算法部署到实际应用中之前，我们需要对算法进行集成和测试，以确保其在实际环境中的可靠性和鲁棒性。本文将详细介绍如何进行AI算法的集成和测试，…

人工智能 2024年1月3日
0056
使用pandas从excel表格中取一列数值报错，注意空格

使用pandas从excel数据中取某一列时报错： KeyError Traceback (most recent call last)E:\ProgramFiles\Anacon…

人工智能 2023年7月5日
0053
pandas | 使用pandas进行数据处理——DataFrame篇

今天是 pandas数据处理专题的第二篇文章，我们一起来聊聊pandas当中最重要的数据结构——DataFrame。上一篇文章当中我们介绍了Series的用法，也提到了Serie…

人工智能 2023年6月2日
00103
03_使用决策树预测隐形眼镜类型

波士顿房价数据集是一个经典的回归问题，可以使用决策树_算法进行 _预测。理论推导： 1. 数据集：波士顿房价数据集包含506个样本，每个样本有13个特征，其中包括城镇犯罪率、…

人工智能 2023年6月26日
0086
C++OpenCV系统学习（14）——图像分割与抠图（1）_KMeans

目录 1.概述 1.1K-means方法 1.2基本流程 2.K-means图像分割 2.1图像分割 2.2K-means算法原理 2.3实验案例 1.概述 [TencentClo…

人工智能 2023年6月2日
00139
【Python编程】应用系列1-使用pandas实现.csv文件的拆分或者合并

9.1 什么是Pandas?如何安装？ Pandas 是 Python 语言的一个扩展程序库，提供高性能、易于使用的数据结构和数据分析工具。 Pandas 名字衍生自术语 &#82…

人工智能 2023年7月16日
00135
通过anaconda升级、安装jupyter notebook内核kernel的python版本

本来我是要通过重装的方式来升级到最新版本python内核的，然后在看了很多帖子之后终于成功、免于卸载了，现在就把完整的步骤分享出来。使用环境：Windows10 目录 0 准备工…

人工智能 2023年6月24日
0095
使用科大讯飞API 实现语音识别的流程

科大讯飞API 实现语音识别 1.讯飞开放平台登录——》控制台——》我的应用——》创建新应用，获取APPID，会在代码中使用，后续下载的SDK也与之有关，所以必须先申请APPID…

人工智能 2023年5月27日
00489
教你windows下配置java环境变量&idea配置maven库（标贝科技）

配置java环境变量+idea配置maven库（标贝科技）前言配置环境变量是小伙伴们入坑的第一步，本文将一步一步详细介绍，保证大家都能够看懂！！！顺便介绍下：我们是一家致力于…

人工智能 2023年6月6日
00101

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31