机器学习实战(聚类)

聚类简介

在”无监督学习”中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础。此类学习任务中研究最多、应用最广的是”聚类”(clustering)

聚类的目的是寻找一组一组相似的object,聚类希望类目内数据较近,类目之间的距离较远。

原型聚类

  • K-means (对噪声敏感)
  • 随机选取K个中心点
  • 将数据分配到与之接近的中心点
  • 使用数据均值去更新中心点,当中心点不再发生变化时停止
  • 学习向量化
    [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:080c100d-6740-4b3f-919a-f6f57acd0e0e
    [En]

    [TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:dfe8495d-0474-4f83-90c1-6556e048bc67

密度聚类(类似人眼分类)

  • 核心对象:对象xj的ε−邻域中至少包含MinPts个样本Nε(xj)≥MinPts,则称xj为核心对象。
  • 密度直达:若xj位于xi的ε−邻域中,且xi是核心对象,则称xj由xi密度直达。
  • 密度可达:对xj与xi,存在样本序列p1,p2,…,pn且p1=xj,pn=xi,p1=xj,pn=xi 且pi+1由pi密度直达,则称xj由xi密度可达。
  • 密度相连:对xj与xi,若存在xk使得xj与xi均由xk密度可达,则称xj由xi密度相连。

机器学习实战(聚类)

DBSCAN将’簇’定义为:由密度可达关系导出的最大的密度相连的集合。

层次聚类

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:dddec464-4cbd-4e5c-a762-9b093a4fc415

[En]

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped due to arrears, please recharge your account in Tencent Cloud requestId:7de8f65e-2c84-4fd3-83bc-70a0bc0ce02b

AGNES是一种采用自底向上聚合策略的层次聚类算法。它将数据集中的每个样本看作一个初始聚类簇,然后算法运行的每一步找到距离最近的两个簇类进行合并,该过程不断重复,直到达到预设的聚类个数。这里的关键是如何计算聚类之间的距离,这里给出了三种距离。

最小距离:

机器学习实战(聚类)

最大距离:

机器学习实战(聚类)

平均距离:

机器学习实战(聚类)

机器学习实战(聚类)

Sklearn实现聚类

机器学习代码KMeans(聚类)

Original: https://blog.csdn.net/weixin_44337883/article/details/124220354
Author: 清水一个僧
Title: 机器学习实战(聚类)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/561603/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球