记录篇：【百面机器学习】第五章.非监督学习—K均值聚类

2023年6月2日下午5:15 • 人工智能 • 阅读 87

K 均值算法的调优一般可以从以下几个角度出发：

（ 1 ）数据归一化和离群点处理

K 均值聚类本质上是一种基于欧式距离度量的数据划分方法，均值和方差大的维度将对数据的聚类结果产生决定性的影响，所以未做归一化处理和统一单位的数据是无法直接参与运算和比较的。同时，离群点或者少量的噪声数据就会对均值产生较大的影响，导致中心偏移，因此使用K 均值聚类算法之前通常需要对数据做预处理。

（ 2 ）合理选择 K 值

K 值的选择是 K 均值聚类最大的问题之一，这也是 K 均值聚类算法的主要缺点。实际上，我们希望能够找到一些可行的办法来弥补这一缺点，或者说找到 K 值的合理估计方法。但是， K 值的选择一般基于经验和多次实验结果。例如采用手肘法，我们可以尝试不同的 K 值，并将不同 K 值所对应的损失函数画成折线，横轴为 K 的取值，纵轴为误差平方和所定义的损失函数，如图 5.3 所示。

由图可见， K_值越大，距离和越小；并且，当 _K=3 时，存在一个拐点，就像人的肘部一样；当 K

(1,3) 时，曲线急速下降；当 K >3 时，曲线趋于平稳。手肘法认为拐点就是 K 的最佳值。

手肘法是一个经验方法，缺点就是不够自动化，因此研究员们又提出了一些更先进的方法，其中包括比较有名的Gap Statistic 方法。

（ 3 ）采用核函数。

采用核函数是另一种可以尝试的改进方向。传统的欧式距离度量方式，使得 K均值算法本质上假设了各个数据簇的数据具有一样的先验概率，并呈现球形或者高维球形分布，这种分布在实际生活中并不常见。面对非凸的数据分布形状时，可能需要引入核函数来优化，这时算法又称为核K 均值算法，是核聚类方法的一种。核聚类方法的主要思想是通过一个非线性映射，将输入空间中的数据点映射到高位的特征空间中，并在新的特征空间中进行聚类。非线性映射增加了数据点线性可分的概率，从而在经典的聚类算法失效的情况下，通过引入核函数可以达到更为准确的聚类结果。

Original: https://blog.csdn.net/weixin_48592695/article/details/121798441
Author: W_Yeee
Title: 记录篇：【百面机器学习】第五章.非监督学习—K均值聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/561523/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R语言使用factor函数将字符串向量转化为因子向量、使用levels函数查看因子的水平

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0086
如何在PyTorch中实现自定义损失函数

简介在PyTorch中实现自定义损失函数是一种非常常见的需求。自定义损失函数可以根据任务的特点和目标进行灵活的定义，从而提高模型在特定任务上的性能。本文将详细介绍如何在PyTor…

人工智能 2024年1月2日
0042
阿尔法蛋机器人tf卡_如父母般陪着你长大，科大讯飞阿尔法蛋智能故事机Z1体验…

80、90后是现在中国的中坚力量，在为事业生活打拼的同时，也不可忽视对子女的教育和陪伴。忙碌的生活，总有无法按时回家甚至背井离乡打工的情况，孩子想听到父母的声音，老人带孩子只能照顾…

人工智能 2023年5月27日
00152
什么是标签传播算法？为什么要使用标签传播算法？如何使用？

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月3日
00114
Python二手房价格预测（三）——二手房价格预测模型baseline

系列文章目录一、Python二手房价格预测（一）——数据获取二、Python二手房价格预测（二）——数据处理及数据可视化文章目录系列文章目录前言一、数据处理二、模型训…

人工智能 2023年6月15日
0088
Rotated_Faster_Rcnn

rotated faster rcnn 文章目录训练 * rpn_head.forward_train – rpn_head.forward rpn_head.los…

人工智能 2023年7月10日
00110
python下opencv安装

1、查看python版本cmd输入命令行,python。2、根据对应python版本，去https://www.lfd.uci.edu/~gohlke/pythonlibs/，下载…

人工智能 2023年6月18日
0097
[常用工具] Python视频处理库VidGear使用指北

VidGear是一个高性能的Python视频处理库，它在预载多个专业视频图像处理库的基础上，如OpenCV、FFmpeg、ZeroMQ、picamera、starlette、yt_…

人工智能 2023年6月19日
00123
使用Python将DOTA数据集的格式转换成VOC2007数据集的格式

一、VOC2007数据集二、DOTA数据集三、将DOTA数据集的格式转换成VOC2007数据集的格式一、VOC2007数据集 VOC2007数据集的文件结构如下图所示。其中…

人工智能 2023年6月17日
0070
COCO2017 数据集分类统计

文章目录 1. 前言 2. COCO 类别编号及名称 3. 类别数量统计代码 4. 统计结果前言最近用到 COCO2017 数据集做目标检测，顺便整理一下数据集。 COCO 数…

人工智能 2023年5月26日
0088
机器学习笔记十八：基于3种方法的随机森林模型分析房屋参数重要性

这里写自定义目录标题 * – + 1. 探索性数据分析 + * 1.1 数据集分割（训练集、测试集） * 1.2 模型拟合 + 2. 特征重要性比较 + * 2.1 G…

人工智能 2023年6月30日
00134
Object Detection in 20 Years: A Survey 20年间的目标检测：综述

摘要物体检测作为计算机视觉中最基本和最具挑战性的问题之一，近年来受到了极大的关注。它在过去二十年中的发展可以看作是计算机视觉历史的缩影。如果我们把今天的物体探测看成是深度学习力量…

人工智能 2023年7月9日
0053
数学符号、公式的英语读法

先简单的，1+2=3 用英语说 One plus two equals three. 基本数学符号 1. 加减乘除 “+”当作运算符加号时读作plus，比…

人工智能 2023年6月4日
0088
pandas 对列的相关操作

先生成测试数据，存放学生的成绩信息： import copy import pandas as pd data = pd.DataFrame({‘name’:[‘Lindsay’,…

人工智能 2023年7月15日
0067
python谱聚类，选择聚类个数和聚类图+私货

K-means算法聚类个数k应该如何的选择,目前常用有肘部法则和轮廓系数法等。肘部法则通过寻找损失值下降平稳的拐点来确定k值，而轮廓系统则是通过寻找轮廓系数的最大值来进行计算：…

人工智能 2023年6月2日
0073
pandas索引的设置与修改

公众号：尤而小屋作者：Peter编辑：Peter 大家好，我是Peter~ 本文主要是介绍Pandas中行和列索引的4个函数操作： set_index reset_index se…

人工智能 2023年6月13日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

记录篇：【百面机器学习】第五章.非监督学习—K均值聚类

大家都在看