聚类(一)——K-Means算法

2023年5月31日上午9:56 • 人工智能 • 阅读 105

聚类是一种无监督学习。与分类不同的是，分类的数据集都是有标签的已经指明了该样本是哪一类，而对于聚类其数据集样本是没有标签的，需要我们根据特征对这些数据进行聚类。
K-Means算法是一种无监督学习的聚类方法。

1.K-Means算法

算法接受参数K，然后将事先输入的n个数据对象划分成K个聚类以便使得所获得得聚类满足：同一聚类中得对象相似的较高，而不同聚类中的对象相似度较小。
算法思想：以空间中K个点为中心进行聚类，对著靠近他们得对象归类。通过迭代的方法，逐次更新聚类中心得值，直至得到最好的聚类结果。
K—MEANS算法步骤：
1.先从没有标签得元素集合A中随机取k个元素，作为k个子集各自的重心
2.分别计算剩下得元素到k个子集重心得距离（这里的距离也可以使用欧氏距离），根据距离将这些元素分别划归到最近的子集。
3.根据聚类得结果，重新计算重心（（重心得计算方法是计算子集中所有元素各个维度得算数平均数）
4.将集合A中全部元素按照新的重心然后在重新聚类。
5.重复第4步，直到聚类结果不再发生改变。
举例：

以上边得数据为例，给定k=2，假设第一次我们选取得重心为(1,1)(2,1),分别计算所有得点到重心的距离，结果如下图的D0所示，按照每个元素到达重心的距离远近将其划分到相应的子集中，结果如G0所示；

在重新计算新的重心，对应第一个类别，由于就只有(1，1)一个点，所以其重心就是(1,1)本身，对于第二个类别其重心就是所以点的X，Y轴坐标分别相加求平均值，为c2。所以新的重心就变成了图上五角星所表示的点。
再次计算各个点到重心的距离得到D1，按照计算出来的距离进行划分得到新的划分结果G1，再次重新计算重心C1，c2。
聚类(一)——K-Means算法

接着照着上边的步骤进行计算得到D2，G2，发现聚类结果不再发生改变，聚类停止迭代。
代码：

import numpy as np
import matplotlib.pyplot as plt

data=np.genfromtxt('kmeans.txt',delimiter=' ')
print(data.shape)
print(data[:5])
plt.scatter(data[:,0],data[:,1])
plt.show()

(80, 2)
[[ 1.658985  4.285136]
 [-3.453687  3.424321]
 [ 4.838138 -1.151539]
 [-5.379713 -3.362104]
 [ 0.972564  2.924086]]

def calDistence(x1,x2):
    return np.sqrt(sum((x1-x2)**2))

def initCenter(data,k):
    numbSamples,dim=data.shape

    center=np.zeros((k,dim))

    for i in range(k):
        index=int(np.random.uniform(0,numbSamples))

        center[i,:]=data[index,:]
    return center

def kmeans(data,k):
    numSample=data.shape[0]

    resultData=np.array(np.zeros((numSample,2)))
    ischange=True

    center=initCenter(data,k)

    while(ischange):
        ischange=False

        for i in range(numSample):
            minDist=10000
            mindex=0

            for j in range(k):
                distance=calDistence(data[i,:],center[j,:])

                if(distance<minDist):
                    minDist=distance
                    resultData[i,1]=minDist
                    mindex=j
            if(resultData[i,0]!=mindex):
                ischange=True
                resultData[i,0]=mindex

        for j in range(k):
            cluster_index=np.nonzero(resultData[:,0]==j)
            points=data[cluster_index]

            center[j,:]=np.mean(points,axis=0)
    return center,resultData

test=np.array([0,1,2,3,1,0,2,3,1,2,0])
print(test==0)
print(np.nonzero(test==0))
test[np.nonzero(test==0)]

[ True False False False False  True False False False False  True]
(array([ 0,  5, 10], dtype=int64),)

array([0, 0, 0])

def showData(data,k,center,resultData):
    numSamples,dim=data.shape
    if(dim!=2):
        print('error')
        return 1
    mark=['or','ob','og','ok']
    if(k>len(mark)):
        print("your k is to large")
        return 1
    for i in range(numSamples):
        markIndex=int(resultData[i,0])
        plt.plot(data[i,0],data[i,1],mark[markIndex])
    mark=['*r','*b','*g','*k']
    for i in range(k):
        plt.plot(center[i,0],center[i,1],mark[i],markersize=20)
    plt.show()

k=4
center,resultData=kmeans(data,k)
showData(data,k,center,resultData)

center

array([[-3.53973889, -2.89384326],
       [-2.46154315,  2.78737555],
       [ 2.65077367, -2.79019029],
       [ 2.6265299 ,  3.10868015]])


x_test=[0,1]
print(np.tile(x_test,[k,1]))
print([k,1])

[[0 1]
 [0 1]
 [0 1]
 [0 1]]
[4, 1]


a=(np.tile(x_test,[k,1])-center)**2
print(a)
print(sum(a))
print(a.sum(axis=1))

[[12.52975144 15.16201536]
 [ 6.05919468  3.19471136]
 [ 7.02660103 14.3655424 ]
 [ 6.89865932  4.44653198]]
[32.51420647 37.16880109]
[27.6917668   9.25390604 21.39214343 11.34519129]

np.argmin(((np.tile(x_test,[k,1])-center)**2).sum(axis=1))

def predict(datas):
    return np.array([np.argmin(((np.tile(data,[k,1])-center)**2).sum(axis=1)) for data in datas])


x_min,x_max=data[:,0].min()-1,data[:,0].max()+1
y_min,y_max=data[:,1].min()-1,data[:,1].max()+1

xx,yy=np.meshgrid(np.arange(x_min,x_max,0.02),
                    np.arange(y_min,y_max,0.02))
z=predict(np.c_[xx.ravel(),yy.ravel()])
z=z.reshape(xx.shape)
cs=plt.contourf(xx,yy,z)
showData(data,k,center,resultData)


from sklearn.cluster import KMeans


model=KMeans(n_clusters=4)
model.fit(data)

KMeans(n_clusters=4)

centers=model.cluster_centers_
print(centers)

[[-3.38237045 -2.9473363 ]
 [ 2.6265299   3.10868015]
 [-2.46154315  2.78737555]
 [ 2.80293085 -2.7315146 ]]

2.Mini Batch K-Means

Mini Batch K-Means 算法是K—Means算法的变种，采用小批量的数据子集减小计算时间。这里的小批量是指每次训练算法时所随机抽取的数据子集，采用这些随机产生的子集进行训练，大大减少了计算时间，结果一般只略差与标准算法。
该算法的迭代步骤有两步：
1.从数据集中随机抽取一些数据形成小批量，把他们分配给更近的重心
2.更新重心
Mini Batch K-Means比K-Means 相比有更快的收敛速度，但同时也降低了聚类效果

Original: https://blog.csdn.net/m0_51456926/article/details/122658561
Author: 是忘生啊
Title: 聚类(一)——K-Means算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550424/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据分析补充缺失值方法

【小白从小学Python、C、Java】【Python-计算机等级考试二级】【Python-数据分析】 Python数据分析补充缺失值方法选择题以下python代码输出描…

人工智能 2023年7月8日
0088
[工业相机] 分辨率、精度和公差之间的关系

📢博客主页：https://blog.csdn.net/weixin_43197380 📢欢迎点赞 👍 收藏 ⭐留言 📝 如有错误敬请指正！ 📢本文由 Loewen丶原创，首发于 …

人工智能 2023年5月26日
0074
简单理解目标检测的IOU究竟是什么

目录目标检测中有一个很重要的概念便是IOU 那么什么是IOU？那么我们为什么要用IOU？问题：给出两个矩形框，请计算出它们两个的IOU。实现代码：目标检测中有一个很重要的…

人工智能 2023年6月25日
0081
【无标题】

用于实时语义分割的双分割网络（BiseNet）一、摘要二、介绍三、相关工作四、BiseNet 五、总结摘要语义分割需要丰富的信息空间和较大的接受区域。然而，现代方法通常…

人工智能 2023年7月10日
0073
数据挖掘学习笔记4-神经网络

一、感知机（单层神经网络）采用梯度下降（gradient descend）方法进行训练，wi = wi – η Σ （t – o）xi单层神经网络无法处理线…

人工智能 2023年7月17日
0056
Python3 DataFrame数据运算

pandas的DataFrame极大地简化了数据分析过程中一些烦琐操作，它是一个表格型的数据结构, 每一列代表一个变量，而每一行则是一条记录。简答地说，DataFrame是共享同一…

人工智能 2023年7月9日
0076
CNN人脸识别项目（dlib+opencv）

CNN人脸识别获取数据集读取数据集数据预处理建立模型进行预训练对图片进行人脸进行检测并进行可视化总结思路：一个CNN人脸识别项目首先必不可少的是数据集，获取的方式有网…

人工智能 2023年7月19日
0044
Transformer中Relative Position Bias以及DropPath细节梳理

在transformer系列模型结构中，有关位置编码出现了一些变体，transformer以及ViT中使用原生的sine-cosine周期绝对位置编码(periodic absol…

人工智能 2023年5月28日
0058
NLP（自然语言处理）

一、NLP是什么自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然…

人工智能 2023年6月17日
0089
（深入篇）漫游语音识别技术—带你走进语音识别技术的世界

前有古人，后有小王，大家好，我是你们爱思考的小王学长，今天咱们继续漫游语音识别技术哈，今天内容稍微专业一些，大家可以结合上一篇漫游语音识别技术一起学习。在第一部分中，我们简要了解…

人工智能 2023年5月25日
00120
OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)【python-Open_CV系列（五）】

OpenCV图像几何变换专题(缩放、翻转、仿射变换及透视)(python为工具) 【Open_CV系列（五）】文章目录准备图片 1. 缩放 cv2.resize()方法 2. …

人工智能 2023年7月5日
00109
主流的音视频SDK调研

需求来源： ● 功能需求：1、文字聊天：包含文字聊天和简单的表情功能，以及发送图片功能2、语音聊天：可以进行线上语音功能，语音与文字聊天计时方式是合并计算3、自动录音：语音聊天自动…

人工智能 2023年5月25日
0083
fission使用指南

Fission 简介 Fission 是由私有云服务提供商 Platform9 领导开源的 serverless 产品，它借助 kubernetes 灵活强大的编排能力完成容器的管…

人工智能 2023年6月28日
0081
opencv物体识别-识别水果

前言玩一玩用opencv做一些简单的物体识别 1.思路讲解我们基于简单的opencv的阈值分割，通过这个阈值分割，我们能把我们需要识别的物体在二值图里面变成白色，其余的变成黑色…

人工智能 2023年6月18日
0070
（5）OpenPose – Pytorch版用于人体姿态检测、关键点提取、摔倒检测

1.下载OpenPose – Pytorch版源码 github下载地址：https://github.com/Hzzone/pytorch-openpose权重下载：…

人工智能 2023年6月16日
00241
代码随想录算法训练营day53||1035.不相交的线||53. 最大子序和

思路：直线不能相交，就说明在字符串A中找到一个与字符串B相同的子序列，而且这个子序列不能改变相对顺序，只要相对顺序不改变，链接相同数字的直线就不会相交。 class Soluti…

人工智能 2023年6月30日
0092

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类(一)——K-Means算法

1.K-Means算法

2.Mini Batch K-Means

大家都在看