无监督学习–聚类算法
聚类算法是一种无监督学习算法,监督学习指的是我们的训练数据有一系列标签,我们通过假设函数去拟合它,而在无监督学习中,我们的数据不带有任何标签
聚类的定义
将物理或抽象的对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。 同一类中的对象之间具有较高的相似度,而不同类中的对象差别较大。
注:相似度是基于描述对象的属性计算的,计算是对对象之间距离进行计算
基于划分的方法–K-means聚类
; 例题
下表 密度和含糖率为西瓜两个属性,按两属性对西瓜聚类
假定 聚类簇数 k= 3, 算法开始时随机选取三个样本x_6,x_12,x_24作为初始均值向量,
即:μ1=(0.403;0.237),μ2=(0.343;0.099),μ3=(0.478;0.437).
算法第一步是要进行簇分配
考察样本 x1
=(0.697;0.460),它与当前均值向量μ1,μ2,μ3的距离(欧几里得距离)分别为 0.369, 0.506, 0.166,因此 x1
将被划入簇 C3
中.
类似的,对数据集中的所有样本考察一遍后,可得当前簇划分为
C1={x3,x5,x6,x7,x8,x9,x10,x13,x14,x17,x18,x19,x20,x23}
C2={x11,x12,x16 }
C3={x_1,x_2,x_4,x_15,x_21,x_22,x_24,x_25,x_26,x_27,x_28,x_29,x_30}
算法第二步移动聚类中心
于是,可从 C1、C2、C3
分别求出新的均值向量:
μ1′=(0.473;0.207),μ2′=(0.394;0.066),μ3′=(0.602;0.396)
更新当前均值向量后,不断重复上述过程,如下图所示,第五轮迭代产生的结果与第四轮迭代相同,于是算法停止,得到最终的簇划分。
k-平均法算法分析
复杂度:计算复杂度是 O(nkt)
,其中,n是所有对象的数目,k是簇的数目,t是迭代的次数。通常地,k<
Original: https://blog.csdn.net/qq_40691189/article/details/126981204
Author: 在路上的工程师
Title: 无监督学习–聚类算法
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/560298/
转载文章受原作者版权保护。转载请注明原作者出处!