无监督的学习方式
相近的归类–分类具有一定意义:无监督学习
关键:
- 亲疏关系:相似性与距离
- 分类数确定:分多少类合适
距离的度量:
欧几里得距离:两个点坐标距离:
曼哈顿距离:绝对轴距总和:
切比雪夫距离:各坐标数值差的最大值
明可夫斯基距离:多个距离公式的概括性表述
dist(x)
a b
b 10.392305
c 2.828427 10.770330
ac距离更短
相似性度量
余弦相似性的度量:
更注重在方向上的差异
cos θ = ∑ 1 n ( A i × B i ) ∑ 1 n A i 2 × ∑ 1 n B i 2 \cos\theta=\frac{\sum_1^n(A_i\times B_i)}{\sqrt {\sum_1^nA_i^2} \times \sqrt{\sum_1^nB_i^2}}cos θ=∑1 n A i 2 ×∑1 n B i 2 ∑1 n (A i ×B i )
打分计算:
a
马氏距离
协方差矩阵,排除向量相关性影响
海明距离
用于编码,变成一样需要替换几次
杰卡德相似系数
两个集合,交集与并集之比
- 希望将数据分成 K 组
- 随机选择k个点做为质心
- 计算每一个质心得距离
- 选出分组的新质心
Q about K-means
- k 取决于经验
- 初始质心是随机选择的:优化彼此最远点!
- 不会一直循环,K-means有收敛,利用误差平方和(SSE)的概念
- 每次聚类的结果很可能不一样”不稳定”与初始值选择有关
`handlebars
k-means
newiris<-iris
newiris$Species<-NULL
kc<-kmeans(newiris,3)
kc
table(kc$cluster,iris$Species)
Original: https://blog.csdn.net/qq_40243662/article/details/122600512
Author: chenjunjun2022
Title: 聚类分析-关联规则
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550920/
转载文章受原作者版权保护。转载请注明原作者出处!