kmeans聚类
一、作业内容
在本练习中,您将实现K-means聚类算法并应用它来压缩图像。
数据集下载位置(包含吴恩达机器学课后作业全部数据集):data
二、作业分析
1、 无监督学习:根据类别未知(没有被标记)的训练样本解决模式识别中的各种问题,称之为无监督学习,”监督”的意思可以直观理解为”是否有标注的数据”。
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:08689da9-1431-4c61-a416-bd88b6ba6cbf
[En]
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:cd670f5d-1714-45d7-aae4-17de507ac04d
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:617571e3-cef4-4c40-a6d4-8b4f085a56cb
[En]
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:4966146e-029b-4367-9a5f-3d4d2a5a9a76
2、聚类是无监督学习的常见任务,就是将观察值聚成一个一个的组,每一个组都含有一个或者几个特征,聚类的目的在于把相似的东西聚在一起,而我们并不关心这一类是什么。 因此,一个聚类算法通常只需要知道如何计算相似度就可以开始工作了。例如无监督学习应该能在不给任何额外提示的情况下,仅依据一定数量的”狗”的图片特征,将”狗”的图片从大量的各种各样的图片中将区分出来。
k_means:无监督分类算法,不需要标签集
训练步骤:
首先KMeans算法需要有两个输入:
(1) K(聚类的个数)
(2) 训练集{x 1 x_1 x 1 、x 2 x_2 x 2 、…、x m x_m x m }
其中我们约定x i x_i x i ∈R n R_n R n (注意这里不需要加入x 0 x_0 x 0 =1)
然后我们要随机初始化K个聚类中心u 1 u_1 u 1 ,u 2 u_2 u 2 ,…,u K u_K u K ,其中这些聚类中心都是n维的向量
第一个for循环代表遍历每一个样本,为每一个样本选择一个簇,也就是选择1~K个聚类中心的一个。其中选择的方法就是选择距离当前样本最近的聚类中心,也就是使得m i n ∣ ∣ min||min ∣∣x_i − -−u_k ∣ ∣ 2 ||^2 ∣∣2
第二个for循环代表重新计算聚类中心,u k u_k u k 代表聚类中心。假设样本1、5、6、9在第一个for循环中被划分到第二个簇,那么c 1 c_1 c 1 =c 5 c_5 c 5 =c 6 c_6 c 6 =c 9 c_9 c 9 =2。并且u 2 u_2 u 2 =[x 1 x_1 x 1 +x 5 x_5 x 5 +x 6 x_6 x 6 +x 9 x_9 x 9 ]/4,u 2 u_2 u 2 是一个n维向量。
注意:
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:610b91ba-11ed-490b-a7ec-c8ecf0af41b6
[En]
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:34bdbe2a-d82b-434c-8719-c36b95a99c25
计算新的聚类中心点:
C ( i ) C^{{(i)}}C (i ) :x ( i ) x^{(i)}x (i )被划分到的簇的序号
μ k \mu {k}μk :第K个聚类中心
μ C i \mu {C^{i}}μC i :表示x ( i ) x^{(i)}x (i )所属簇的聚类中心
3、随机初始化
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:9ad0fdf0-da39-4d21-a40f-bfa24e65d29a
[En]
[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:c663d261-d7c0-4681-b779-f361ac978202
(1) 首先要保证簇数K
Original: https://blog.csdn.net/weixin_43871577/article/details/126230223
Author: 荭凯
Title: 吴恩达机器学习课后作业——K-means 和PCA(主成分分析)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/561676/
转载文章受原作者版权保护。转载请注明原作者出处!