聚类分析-关联规则

无监督的学习方式
相近的归类–分类具有一定意义:无监督学习

关键:

  • 亲疏关系:相似性与距离
  • 分类数确定:分多少类合适

距离的度量:

欧几里得距离:两个点坐标距离:
曼哈顿距离:绝对轴距总和:

切比雪夫距离:各坐标数值差的最大值
明可夫斯基距离:多个距离公式的概括性表述

dist(x)
a b
b 10.392305
c 2.828427 10.770330
ac距离更短

相似性度量

余弦相似性的度量:
更注重在方向上的差异
cos ⁡ θ = ∑ 1 n ( A i × B i ) ∑ 1 n A i 2 × ∑ 1 n B i 2 \cos\theta=\frac{\sum_1^n(A_i\times B_i)}{\sqrt {\sum_1^nA_i^2} \times \sqrt{\sum_1^nB_i^2}}cos θ=∑1 n ​A i 2 ​​×∑1 n ​B i 2 ​​∑1 n ​(A i ​×B i ​)​

打分计算:
a

马氏距离

协方差矩阵,排除向量相关性影响

海明距离

用于编码,变成一样需要替换几次

杰卡德相似系数

两个集合,交集与并集之比

  • 希望将数据分成 K 组
  • 随机选择k个点做为质心
  • 计算每一个质心得距离
  • 选出分组的新质心

Q about K-means

  • k 取决于经验
  • 初始质心是随机选择的:优化彼此最远点!
  • 不会一直循环,K-means有收敛,利用误差平方和(SSE)的概念
  • 每次聚类的结果很可能不一样”不稳定”与初始值选择有关

`handlebars

k-means

newiris<-iris
newiris$Species<-NULL

kc<-kmeans(newiris,3)
kc

table(kc$cluster,iris$Species)

Original: https://blog.csdn.net/qq_40243662/article/details/122600512
Author: chenjunjun2022
Title: 聚类分析-关联规则

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/550920/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球