记录篇:【百面机器学习】第五章.非监督学习—K均值聚类

K 均值算法的调优一般可以从以下几个角度出发:

( 1 )数据归一化和离群点处理

K 均值聚类本质上是一种基于欧式距离度量的数据划分方法,均值和方差大的维度将对数据的聚类结果产生决定性的影响,所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。同时,离群点或者少量的噪声数据就会对均值产生较大的影响,导致中心偏移,因此使用K 均值聚类算法之前通常需要对数据做预处理。

( 2 )合理选择 K

K 值的选择是 K 均值聚类最大的问题之一,这也是 K 均值聚类算法的主要缺点。实际上,我们希望能够找到一些可行的办法来弥补这一缺点,或者说找到 K 值的合理估计方法。但是, K 值的选择一般基于经验和多次实验结果。例如采用手肘法,我们可以尝试不同的 K 值,并将不同 K 值所对应的损失函数画成折线,横轴为 K 的取值,纵轴为误差平方和所定义的损失函数,如图 5.3 所示。

记录篇:【百面机器学习】第五章.非监督学习---K均值聚类
由图可见, K_值越大,距离和越小;并且,当 _K=3 时,存在一个拐点,就像人的肘部一样;当 K记录篇:【百面机器学习】第五章.非监督学习---K均值聚类

(1,3) 时,曲线急速下降;当 K >3 时,曲线趋于平稳。手肘法认为拐点就是 K 的最佳值。

手肘法是一个经验方法,缺点就是不够自动化,因此研究员们又提出了一些更先进的方法,其中包括比较有名的Gap Statistic 方法 。

( 3 )采用核函数。

采用核函数是另一种可以尝试的改进方向。传统的欧式距离度量方式,使得 K均值算法本质上假设了各个数据簇的数据具有一样的先验概率,并呈现球形或者高维球形分布,这种分布在实际生活中并不常见。面对非凸的数据分布形状时,可能需要引入核函数来优化,这时算法又称为核K 均值算法,是核聚类方法的一种 。核聚类方法的主要思想是通过一个非线性映射,将输入空间中的数据点映射到高位的特征空间中,并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率,从而在经典的聚类算法失效的情况下,通过引入核函数可以达到更为准确的聚类结果。

Original: https://blog.csdn.net/weixin_48592695/article/details/121798441
Author: W_Yeee
Title: 记录篇:【百面机器学习】第五章.非监督学习—K均值聚类

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/561523/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球