机器学习(九)——Kmeans聚类

2023年5月31日上午7:19 • 人工智能 • 阅读 93

k均值聚类算法（k-means clustering algorithm）是一种迭代求解的聚类分析算法，其步骤是随机选取K个对象作为初始的聚类中心，然后计算每个对象与各个种子聚类中心之间的距离，把每个对象分配给距离它最近的聚类中心。

Kmeans介绍

算法接受参数k，然后将事先输入的n个数据划分为k个聚类以便使得所获得的聚类满足同一聚类中的对象相似度高，而不同聚类中的相似度低。以空间中k个中心进行聚类，对最靠近他们的对象归类，通过迭代的方法，逐次更新聚类中心的值，直至得到最好的聚类结果。

算法描述：
（1）适当选择c个类的初始中心；
（2）在k次迭代中，对任意一个样本，求其到c各中心的距离，将该样本归到距离更短的中心所在的类；
（3）利用均值等方法更新该类的中心值；
（4）对于所有的c个聚类中心，如果利用（2）（3）的迭代法更新后，值保持不变，则迭代结束，否则继续迭代。

; 相似度的度量

Kmeans的计算过程

现在有4组数据，每组数据有2个维度，对其进行聚类分为2类，将其可视化一下。 A=(1,1),B=(2,1),C=(4,3),D=(5,4)

假设选取两个星的位置为初始中心 c1=(1,1),c2=(2,1) ，计算每个点到初始中心的距离，使用欧式距离得到4个点分别距离两个初始中心的距离，归于最近的类：

通过比较，将其进行归类。并使用平均法更新中心位置。

由于归于group1的只有一个点，一次更新后的中心位置 c1=(1,1)，而 c2=(11/3, 8/3)

再次计算每个点与更新后的位置中心的距离

继续迭代下去，

此时，与上一次的类别标记无变化，即可停止。

; Kmeans的编程实现

import numpy as np

def kmeans(X, k, maxIt):

    numPoints, numDim = X.shape

    dataSet = np.zeros((numPoints, numDim + 1))
    dataSet[:, :-1] = X

    centroids = dataSet[np.random.randint(numPoints, size = k), :]
    centroids = dataSet[0:2, :]

    centroids[:, -1] = range(1, k +1)

    iterations = 0
    oldCentroids = None

    while not shouldStop(oldCentroids, centroids, iterations, maxIt):
        print("iteration: \n", iterations)
        print("dataSet: \n", dataSet)
        print("centroids: \n", centroids)

        oldCentroids = np.copy(centroids)
        iterations += 1

        updateLabels(dataSet, centroids)

        centroids = getCentroids(dataSet, k)

    return dataSet

def shouldStop(oldCentroids, centroids, iterations, maxIt):
    if iterations > maxIt:
        return True
    return np.array_equal(oldCentroids, centroids)

def updateLabels(dataSet, centroids):

    numPoints, numDim = dataSet.shape
    for i in range(0, numPoints):
        dataSet[i, -1] = getLabelFromClosestCentroid(dataSet[i, :-1], centroids)

def getLabelFromClosestCentroid(dataSetRow, centroids):
    label = centroids[0, -1];
    minDist = np.linalg.norm(dataSetRow - centroids[0, :-1])
    for i in range(1 , centroids.shape[0]):
        dist = np.linalg.norm(dataSetRow - centroids[i, :-1])
        if dist < minDist:
            minDist = dist
            label = centroids[i, -1]
    print("minDist:", minDist)
    return label

def getCentroids(dataSet, k):

    result = np.zeros((k, dataSet.shape[1]))
    for i in range(1, k + 1):
        oneCluster = dataSet[dataSet[:, -1] == i, :-1]
        result[i - 1, :-1] = np.mean(oneCluster, axis = 0)
        result[i - 1, -1] = i

    return result

x1 = np.array([1, 1])
x2 = np.array([2, 1])
x3 = np.array([4, 3])
x4 = np.array([5, 4])
testX = np.vstack((x1, x2, x3, x4))

result = kmeans(testX, 2, 10)
print("final result:")
print(result)

sklearn包的Kmeans聚类

from sklearn.cluster import KMeans
KMeans(n_clusters=8,init='k-means++',n_init=10,max_iter=300,tol=0.0001,
       verbose=0,random_state=None,
       copy_x=True,algorithm='auto')

参数

n_clusters：
整形，默认=8 【生成的聚类数，即产生的质心（centroids）数

init：
有三个可选值：'k-means++'， 'random'，或者传递一个ndarray向量。
此参数指定初始化方法，默认值为 'k-means++'。
（１）'k-means++' 用一种特殊的方法选定初始质心从而能加速迭代过程的收敛
（２）'random' 随机从训练数据中选取初始质心。
（３）如果传递的是一个ndarray，则应该形如 (n_clusters, n_features) 并给出初始质心

n_init：
整形，默认=10用不同的质心初始化值运行算法的次数，最终解是在inertia意义下选出的最优结果

max_iter：
整形，默认=300执行一次k-means算法所进行的最大迭代数

tol：
float形，默认值= 1e-4　与inertia结合来确定收敛条件

precompute_distances：
三个可选值，'auto'，True 或者 False。预计算距离，计算速度更快但占用更多内存。
（１）'auto'：如果 样本数乘以聚类数大于 12million 的话则不预计算距离
（２）True：总是预先计算距离
（３）False：永远不预先计算距离
自版本0.23起已弃用： 'precompute_distances'在版本0.22中已弃用，并将在0.25中删除。没有作用

verbose：
int 默认为0，Verbosity mode

random_state：
整形或 numpy.RandomState 类型，可选用于初始化质心的生成器（generator）
如果值为一个整数，则确定一个seed。此参数默认值为numpy的随机数生成器

copy_x：
布尔型，默认值=True
当我们precomputing distances时，将数据中心化会得到更准确的结果
如果把此参数值设为True，则原始数据不会被改变
如果是False，则会直接在原始数据上做修改并在函数返回值时将其还原
但是在计算过程中由于有对数据均值的加减运算，所以数据返回后，原始数据和计算前可能会有细小差别

n_jobs：
整形数。　指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
（１）若值为 -1，则用所有的CPU进行运算
（2）若值为1，则不进行并行运算，这样的话方便调试
（3）若值小于-1，则用到的CPU数为(n_cpus + 1 + n_jobs)
         如果 n_jobs值为-2，则用到的CPU数为总CPU数减1
  从0.23版n_jobs开始不推荐使用：从0.23版开始不推荐使用，并将在0.25版中删除。

algorithm：
三种可选"auto", "full", "elkan", default="auto"
 使用K均值算法。经典的EM风格算法是"full"的
 通过使用三角形不等式，" elkan"算法对于定义良好的聚类的数据更有效
 但是，由于分配了额外的形状数组（n_samples，n_clusters），因此需要更多的内存。
目前，" auto"（保持向后兼容性）选择" elkan"
在版本0.18中更改：添加了Elkan算法

实例
首先我们随机创建一些二维数据作为训练集，观察在不同的k值下聚类算法的区别

import numpy as np
import matplotlib.pyplot as plt
from sklearn import metrics
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

X, y = make_blobs(n_samples=1000, n_features=2,centers=[[-1,-1], [0,0], [1,1], [2,2]],
cluster_std=[0.4, 0.2, 0.2, 0.2],random_state =9)
y_pred = KMeans(n_clusters=2, random_state=9)
y_pred = y_pred.fit_predict(X)
plt.figure()
plt.subplot(1,2,1)
plt.scatter(X[:, 0], X[:, 1], marker='o')
plt.subplot(1,2,2)
plt.scatter(X[:, 0], X[:, 1], c=y_pred)
plt.show()

利用KMeans函数新建一个聚类算法，这里设置为2分类

y_pred = KMeans(n_clusters=2, random_state=9)

然后进行分类

y_pred = y_pred.fit_predict(X)
 新建对象后，常用的方法包括fit、predict、cluster_centers_和labels。
 fit（X）函数对数据X进行聚类，
 使用predict方法进行新数据类别的预测，
 使用cluster_centers_获取聚类中心，
 使用labels_获取训练数据所属的类别，
 inertia_获取每个点到聚类中心的距离和

当然3分类，4分类我们只需要修改一下KMeans函数中的n_clusters参数即可

y_pred = KMeans(n_clusters=3, random_state=9)
y_pred = KMeans(n_clusters=4, random_state=9)

Original: https://blog.csdn.net/weixin_44491423/article/details/121743149
Author: hhhcbw
Title: 机器学习(九)——Kmeans聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549702/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pytorch基础(5)——SOFTMAX回归相关知识

对多维Tensor 按维度操作给定⼀个Tensor 矩阵X 。我们可以只对其中同⼀列（dim=0 ）或同⼀⾏（dim=1 ）的元素求和，并在结果中保留⾏和列这两个维度（ keepd…

人工智能 2023年6月18日
0051
R语言使用＜-操作符创建新的变量、使用transform函数基于两个数据列的加和创建新的变量（sum variables to make new featurs in dataframe）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0076
MATLAB实现智能计算方法实验：实验三 BP神经网络

资源链接 MATLAB实现智能计算方法课程所有实验代码资源链接为：MATLAB实现智能计算方法课程所有实验代码资源本实验代码和excel文件可在GitHub仓库和gitee仓库中进…

人工智能 2023年6月16日
0068
NER论文笔记1-ACL2019

A Joint Named-Entity Recognizer for Heterogeneous Tag-sets Using a Tag Hierarchy 论文背景：由于某些…

人工智能 2023年5月30日
0063
机器学习—降维-特征选择6-2（包装法）

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

人工智能 2023年6月4日
0075
python实现非正态分布转正态分布（BoxCox转换）

功能：将一维非正态分布数据转化为正态分布输入：xlsx文件含有”患者密度（人/10万人）”一列输出：将”患者密度（人/10万人）&#8221…

人工智能 2023年7月15日
0079
机器学习中的回归分析

通过回归分析预测连续变量 from IPython.display import Image %matplotlib inline 1.介绍线性回归线性回归的目标是：对一个或者多…

人工智能 2023年6月18日
0081
基于matlab的GUI语音识别系统设计

目录 1.设计GUI 2.回调函数 3.对象显示 4.简单弹窗 5.倒计时设计 1.设计GUI 命令行输入下面的命令打开GUI设计界面。 guide 以下面的语言识别系统为例，下面…

人工智能 2023年5月25日
0074
基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】

基于梵·高《向日葵》的图像阈值处理专题（二值处理、反二值处理、截断处理、自适应处理及Otsu方法）【Python-Open_CV系列（六）】文章目录 🍹1. 什么是阈值处理？ 🍹…

人工智能 2023年6月17日
0067
torchtext 安装，与pytorch版本匹配

没想到安装一个torchtext，查看了好几篇博客！于是梳理总结了一下~ 目录报错：ModuleNotFoundError: No module named ‘tor…

人工智能 2023年7月4日
00314
机器学习中的数据预处理方法与步骤

数据预处理是准备原始数据并使其适用于机器学习模型的过程。这是创建机器学习模型的第一步，也是至关重要的一步。在创建机器学习项目时，我们并不总是遇到干净且格式化的数据。并且在对数据进…

人工智能 2023年6月12日
0079
Halcon区域形状特征-area_center、area_holes、select_shape、inner_circle和smallest_rectangle2算子

提示：文章参考了网络上其他作者的文章，以及相关书籍，如有侵权，请联系作者。前言在场景中选择物体的特征是图像测量或者识别的重要基础。区域的形状特征是非常常用的特征，在模式匹配中，…

人工智能 2023年6月22日
0075
快速上手若依代码生成器(2022)

文章目录前言一、启动若依框架二、使用代码生成器 * 1 导入示例表 2 使用自带的代码生成生成zip文件 – 2.1 Illegal mix of collat…

人工智能 2023年5月30日
0096
EfficientNet 简介

EfficientNet 单独适当增大深度、宽度或分辨率都可以提高网络的精确性，但随着模型的增大，其精度增益却会降低。此外，这三个维度并不是独立的（如：高分辨率图像需要更深的网…

人工智能 2023年6月6日
0067
论文阅读(9)—基于Transformer的多模态CNN心电图心律失常分类

Multi-module Recurrent Convolutional Neural Network with Transformer Encoder for ECG Arrhy…

人工智能 2023年7月1日
00108
【前沿技术RPA】万字吃透UiPath如何处理异常

🐋作者简介：博主是一位.Net开发者，同时也是RPA和低代码平台的践行者。🐬个人主页：会敲键盘的肘子🐰系列专栏：UiPath🦀专栏简介： UiPath在传统的RPA（Robotic…

人工智能 2023年7月19日
00357

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

机器学习(九)——Kmeans聚类

大家都在看