【Python机器学习实战】聚类算法——层次聚类(HAC)和DBSCAN

2023年5月31日上午7:02 • 人工智能 • 阅读 126

层次聚类和DBSCAN

1.层次聚类

下面这样的结构应该比较常见，这就是一种层次聚类的树结构，层次聚类是通过计算不同类别点的相似度创建一颗有层次的树结构，在这颗树中，树的底层是原始数据点，顶层是一个聚类的根节点。

创建这样一棵树的方法有自底向上和自顶向下两种方式。

下面介绍一下如何利用自底向上的方式的构造这样一棵树：

为了便于说明，假设我们有5条数据，对这5条数据构造一棵这样的树，如下是5条数据：

第一步，计算两两样本之间相似度，然后找到最相似两条数据（假设1、2两个最相似），然后将其merge起来，成为1条数据：

现在数据还剩4条，然后同样计算两两之间的相似度，找出最相似的两条数据（假设前两条最相似），然后再merge起来：

现在还剩余3条数据，然后继续重复上面的步骤，假设后面两条数据最相似，那么：

然后还剩余两条数据，再把这两条数据merge起来，最终完成一个树的构建：

上述就是自底向上聚类树的构建过程，自顶向下的过程与之相似，只不过初始数据是一个类别，不断分裂出距离最远的那个点，知道所有的点都成为叶子结点。

那么我们如何根据这棵树进行聚类呢？

我们从树的中间部分切一刀，像下面这样：

然后叶子节点被分成两个类别，也可以像下面这样切：

那么样本集就被分成3个类别。这个切割的线是由一个阈值”threshold”来决定切在什么位置，而这个阈值是需要预先给定的。

但在实做过程中，往往不需要先构建一棵树，再去进行切分，注意看上面切分，切完后，所剩余的节点数量就是类别个数。

那么在建树的过程中，当达到所指定的类别后，则就可以停止树的建立了。

下面看一下HAC（自底向上）的实现过程：

import math
import numpy as np

def euler_distance(point1, point2):
    distance = 0.0
    for a, b in zip(point1, point2):
        distance += math.pow(a-b, 2)
    return math.sqrt(distance)

&#x5B9A;&#x4E49;&#x805A;&#x7C7B;&#x6811;&#x7684;&#x8282;&#x70B9;
class ClusterNode:
    def __init__(self, vec, left=None, right=None, distance=-1, id=None, count=1):
"""
        vec: &#x4FDD;&#x5B58;&#x4E24;&#x4E2A;&#x6570;&#x636E;merge&#x540E;&#x65B0;&#x7684;&#x4E2D;&#x5FC3;
        left: &#x5DE6;&#x8282;&#x70B9;
        right: &#x53F3;&#x8282;&#x70B9;
        distance: &#x4E24;&#x4E2A;&#x8282;&#x70B9;&#x7684;&#x8DDD;&#x79BB;
        id: &#x4FDD;&#x5B58;&#x54EA;&#x4E2A;&#x8282;&#x70B9;&#x662F;&#x8BA1;&#x7B97;&#x8FC7;&#x7684;
        count: &#x8FD9;&#x4E2A;&#x8282;&#x70B9;&#x7684;&#x53F6;&#x5B50;&#x8282;&#x70B9;&#x4E2A;&#x6570;
"""
        self.vec = vec
        self.left = left
        self.right = right
        self.distance = distance
        self.id = id
        self.count = count

&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x7684;&#x7C7B;
&#x4E0D;&#x540C;&#x4E8E;&#x6587;&#x4E2D;&#x6240;&#x8BF4;&#x7684;&#x5148;&#x6784;&#x5EFA;&#x6811;&#xFF0C;&#x518D;&#x8FDB;&#x884C;&#x5207;&#x5206;&#xFF0C;&#x800C;&#x662F;&#x76F4;&#x63A5;&#x6839;&#x636E;&#x6240;&#x9700;&#x7C7B;&#x522B;&#x6570;&#x76EE;&#xFF0C;&#x805A;&#x5230;&#x6EE1;&#x8DB3;&#x6761;&#x4EF6;&#x7684;&#x8282;&#x70B9;&#x6570;&#x91CF;&#x5373;&#x505C;&#x6B62;
&#x548C;k-means&#x4E00;&#x6837;&#xFF0C;&#x4E5F;&#x9700;&#x8981;&#x6307;&#x5B9A;&#x7C7B;&#x522B;&#x6570;&#x91CF;
class Hierarchical:
    def __init__(self, k=1):
        assert k > 0
        self.k = k
        self.labels = None

    def fit(self, x):
        # &#x521D;&#x59CB;&#x5316;&#x8282;&#x70B9;&#x5404;&#x4F4D;&#x7B49;&#x4E8E;&#x6570;&#x636E;&#x7684;&#x4E2A;&#x6570;
        nodes = [ClusterNode(vec=v, id=i) for i, v in enumerate(x)]
        distance = {}
        point_num, feature_num = np.shape(x)
        self.labels = [-1] * point_num
        currentclustid = -1
        while len(nodes) > self.k:
            min_dist = np.inf
            # &#x5F53;&#x524D;&#x8282;&#x70B9;&#x7684;&#x4E2A;&#x6570;
            nodes_len = len(nodes)
            # &#x6700;&#x76F8;&#x4F3C;&#x7684;&#x4E24;&#x4E2A;&#x7C7B;&#x522B;
            closest_part = None
            # &#x5F53;&#x524D;&#x8282;&#x70B9;&#x4E2D;&#x4E24;&#x4E24;&#x8DDD;&#x79BB;&#x8BA1;&#x7B97;&#xFF0C;&#x627E;&#x51FA;&#x6700;&#x8FD1;&#x7684;&#x4E24;&#x4E2A;&#x8282;&#x70B9;
            for i in range(nodes_len-1):
                for j in range(i+1, nodes_len):
                    # &#x907F;&#x514D;&#x91CD;&#x590D;&#x8BA1;&#x7B97;
                    d_key = (nodes[i].id, nodes[j].id)
                    if d_key not in distance:
                        distance[d_key] = euler_distance(nodes[i].vec, nodes[j].vec)
                    d = distance[d_key]
                    if d < min_dist:
                        min_dist = d
                        closest_part = (i, j)
            part1, part2 = closest_part
            node1, node2 = nodes[part1], nodes[part2]
            # &#x5C06;&#x4E24;&#x4E2A;&#x8282;&#x70B9;&#x8FDB;&#x884C;&#x5408;&#x5E76;,&#x5373;&#x4E24;&#x4E2A;&#x8282;&#x70B9;&#x6240;&#x5305;&#x542B;&#x7684;&#x6240;&#x6709;&#x6570;&#x636E;&#x7684;&#x5E73;&#x5747;&#x503C;
            new_vec = [(node1.vec[i] * node1.count + node2.vec[i] * node2.count) / (node1.count + node2.count)
                       for i in range(feature_num)]
            new_node = ClusterNode(vec=new_vec, left=node1, right=node2, distance=min_dist, id=currentclustid,
                                   count=node1.count + node2.count)
            currentclustid -= 1
            # &#x5220;&#x6389;&#x8FD9;&#x6700;&#x8FD1;&#x7684;&#x4E24;&#x4E2A;&#x8282;&#x70B9;
            del nodes[part2], nodes[part1]
            # &#x628A;&#x65B0;&#x7684;&#x8282;&#x70B9;&#x6DFB;&#x52A0;&#x8FDB;&#x53BB;
            nodes.append(new_node)
        # &#x6811;&#x5EFA;&#x7ACB;&#x5B8C;&#x6210;&#xFF0C;&#x8FD9;&#x91CC;&#x8981;&#x6CE8;&#x610F;&#xFF0C;&#x5728;&#x793A;&#x4F8B;&#x4E2D;&#x662F;&#x6700;&#x7EC8;&#x51DD;&#x805A;&#x4E3A;1&#x4E2A;&#x8282;&#x70B9;&#xFF0C;&#x800C;&#x8FD9;&#x91CC;&#x5230;&#x8FBE;&#x6240;&#x8981;&#x6307;&#x5B9A;&#x7684;&#x7C7B;&#x522B;&#x6570;&#x76EE;&#x5373;&#x505C;&#x6B62;&#xFF0C;&#x4E00;&#x4E2A;node&#x5C5E;&#x4E8E;&#x4E00;&#x4E2A;&#x7C7B;&#x522B;
        self.nodes = nodes
        # &#x7ED9;&#x6BCF;&#x4E2A;node&#x4EE5;&#x53CA;node&#x5305;&#x542B;&#x7684;&#x6570;&#x636E;&#x6253;&#x4E0A;&#x6807;&#x7B7E;
        self.calc_label()

    def calc_label(self):
        # &#x8C03;&#x53D6;&#x805A;&#x7C7B;&#x7ED3;&#x679C;
        for i, node in enumerate(self.nodes):
            self.leaf_traversal(node, i)

    def leaf_traversal(self, node: ClusterNode, label):
        # &#x9012;&#x5F52;&#x904D;&#x5386;&#x53F6;&#x5B50;&#x7ED3;&#x70B9;
        if node.left is None and node.right is None:
            self.labels[node.id] = label
        if node.left:
            self.leaf_traversal(node.left, label)
        if node.right:
            self.leaf_traversal(node.right, label)

通过读取sklearn自带的鸢尾花的数据库，测试一下：

from sklearn.datasets import load_iris
import matplotlib.pyplot as plt
iris = load_iris()

my = Hierarchical(4)
my.fit(iris.data)
data = iris.data
data_0 = data[np.nonzero(np.array(my.labels) == 0)]
data_1 = data[np.nonzero(np.array(my.labels) == 1)]
data_2 = data[np.nonzero(np.array(my.labels) == 2)]
data_3 = data[np.nonzero(np.array(my.labels) == 3)]
plt.scatter(data_0[:, 0], data_0[:, 1])
plt.scatter(data_1[:, 0], data_1[:, 1])
plt.scatter(data_2[:, 0], data_2[:, 1])
plt.scatter(data_3[:, 0], data_3[:, 1])

print(np.array(my.labels))

from sklearn.cluster import KMeans
km = KMeans(4)
km.fit(iris.data)
print(km.labels_)

data_0_ = data[np.nonzero(np.array(km.labels_) == 0)]
data_1_ = data[np.nonzero(np.array(km.labels_) == 1)]
data_2_ = data[np.nonzero(np.array(km.labels_) == 2)]
data_3_ = data[np.nonzero(np.array(km.labels_) == 3)]
plt.figure()
plt.scatter(data_0_[:, 0], data_0_[:, 1])
plt.scatter(data_1_[:, 0], data_1_[:, 1])
plt.scatter(data_2_[:, 0], data_2_[:, 1])
plt.scatter(data_3_[:, 0], data_3_[:, 1])

可以看到，两种结果差不多，但是也有些不同。

其实sklearn中也有层次聚类算法，上面是为了更好理解层次聚类的算法过程，下面利用sklearn库实现层次聚类算法：

from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import MinMaxScaler
model = AgglomerativeClustering(n_clusters=4, affinity='euclidean', memory=None, connectivity=None,
                                compute_full_tree='auto', linkage='ward', pooling_func='deprecated')
"""
&#x53C2;&#x6570;&#xFF1A;
    n_cluster: &#x805A;&#x7C7B;&#x6570;&#x76EE;
    affinity: &#x8BA1;&#x7B97;&#x8DDD;&#x79BB;&#x7684;&#x65B9;&#x6CD5;&#xFF0C;'euclidean'&#x4E3A;&#x6B27;&#x6C0F;&#x8DDD;&#x79BB;, 'manhattan'&#x66FC;&#x54C8;&#x987F;&#x8DDD;&#x79BB;, 'cosine'&#x4F59;&#x5F26;&#x8DDD;&#x79BB;, 'precompute'&#x9884;&#x5148;&#x8BA1;&#x7B97;&#x7684;affinity matrix;
    memory: None, &#x7ED9;&#x5B9A;&#x4E00;&#x4E2A;&#x5730;&#x5740;&#xFF0C;&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x7684;&#x6811;&#x7F13;&#x5B58;&#x5728;&#x76F8;&#x5E94;&#x7684;&#x5730;&#x5740;&#x4E2D;&#xFF1B;
    linkage: &#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x5224;&#x65AD;&#x76F8;&#x4F3C;&#x5EA6;&#x7684;&#x65B9;&#x6CD5;&#xFF0C;&#x6709;&#x4E09;&#x79CD;&#xFF1A;
             'ward': &#x5373;single-linkage
             'average': &#x5373;average-linkage
             'complete': &#x5373;complete-linkage
"""
"""
&#x5C5E;&#x6027;&#xFF1A;
    labels_&#xFF1A; &#x6BCF;&#x4E2A;&#x6570;&#x636E;&#x7684;&#x5206;&#x7C7B;&#x6807;&#x7B7E;
    n_leaves_&#xFF1A;&#x5206;&#x5C42;&#x6811;&#x7684;&#x53F6;&#x8282;&#x70B9;&#x6570;&#x91CF;
    n_components&#xFF1A;&#x8FDE;&#x63A5;&#x56FE;&#x4E2D;&#x8FDE;&#x901A;&#x5206;&#x91CF;&#x7684;&#x4F30;&#x8BA1;&#x503C;
    children&#xFF1A;&#x4E00;&#x4E2A;&#x6570;&#x7EC4;&#xFF0C;&#x7ED9;&#x51FA;&#x4E86;&#x6BCF;&#x4E2A;&#x975E;&#x8282;&#x70B9;&#x6570;&#x91CF;
"""

data_array = np.array(load_iris().data[:50, :])
min_max_scalar = MinMaxScaler()
data_scalar = min_max_scalar.fit_transform(data_array)
model.fit(min_max_scalar)

from scipy.cluster.hierarchy import linkage, dendrogram
plt.figure(figsize=(20, 6))
Z = linkage(data_scalar, method='ward', metric='euclidean')
p = dendrogram(Z, 0)
plt.show()

有关参数已在上面进行注释，关于类别间的距离计算，有三种：single-linkage、complete-linkage和average-linkage，一个是以最近距离作为类别间的距离，一个是以最远距离作为类间距离，还有是以各个样本距离总的平均值为类间距离。

代码后半部分是生成一个开篇说的那种图的可视化方式，限于显示需要，只取前50个数据，生成的树的结果如图所示（这里并没有分类，而是一种可视化的形式）：

层次聚类的优缺点：

优点：

1、距离的定义比较容易，而且比较自由；

2、有时可以不用指定所需类别个数，就像前面说的，我们可以通过阈值来进行类的划分；

3、可以生成非球形的簇，发现层次间的关系。

缺点：

1、在建树过程中要计算每个样本间的距离，计算复杂度较高；

2、算法对于异常值比较敏感，影响聚类效果；

3、容易形成链状的簇。

2.DBSCAN

前面说了层次聚类算法，其实原理比较简单，但对于噪声（异常值）比较敏感，且基于距离的算法只能发现”类圆形”的簇。

另一种聚类算法 DBSCAN算法是一种基于密度的聚类算法，它能够克服前面说到的基于距离聚类的缺点，且对噪声不敏感，它可以发现任意形状的簇。

DBSCAN的主旨思想是只要一个区域中的点的密度大于一定的阈值，就把它加到与之相近的类别当中去。

那么究竟是如何做呢，我们首先需要了解与DBSCAN有关的几个概念：

先看下面一张图，结合图来理解下面几个概念：

（1） ε-邻域： 一个对象在半径为ε内的区域，简单来说就是在给定一个数据为圆心画一个半径为ε的圈；

（2） 核心对象： 对于给定的一个数值m，在某个对象的邻域内，至少包含m个点，则称之为核心，简单来说就是某个对象的圈内的数据大于m个，则这个对象就是核心；

（3） 直接密度可达： 结合上图，给定一个对象q，如果这个对象的邻域内有大于m个点，而另一个对象p又在这个邻域内，则称之为p是q的直接密度可达；

（4） 间接密度可达： 如下一张图，p1是q的直接密度可达，而p是p1的直接密度可达，那么p则是q的密度可达；

（5） 密度相连：假设一个对象O，是对象p的密度可达，而q是O的密度可达，那么p和q则是密度相连的。

（6）簇：基于密度聚类的簇就是最大的密度相连的所有对象的集合；

（7）噪声：不属于任何簇中的对象称之为噪声；

其实上面的概念看似复杂，这里也进行了简化，原先的定义更加比较难理解，但 结合当前疫情感染情况 ，我们可以试着对上面概念进行一个类比和解释：

假设某个区域突然发现1例感染者，那么防疫人员就要对这个人轨迹进行溯源，就假设这个人的活动区域就是一个圆，那么这个圆就称为这个确诊者的邻域；

然后来过该区域内的所有人员进行核酸筛查，假设发现有3个以上的确诊者，就算中高风险地区了，通过筛查发现第一个人的邻域内有5个确诊者，那么第1个病例这里称之为A，就是核心；

由于这5个人都到过这个区域，那么这5个人的任意一个人都是A的 直接密度可达 。

这里注意， 直接密度可达是一个不对称的 ，可以说这5个其中一个是A的直接密度可达，但不能说第1个病例是这5个的直接密度可达，因为这5个人的活动范围只是与A有交集，但在其各自的活动范围内，并不一定都有超过3个确诊病例；

在又筛查出来5个以后，防疫人员又要进一步扩大核酸范围，那么需要分别对这另外5个人的活动范围进行排查；

经排查发现其中一个确诊者，这里称之为B，B的活动范围内有3个阳性，那么这里B就也是一个核心，其中一个称之为C，不在A的邻域内，那么 C是B的直接密度可达 ， C是A的间接密度可达 ；

这里注意，间接密度可达同样也是不对称的，同样的道理，可以说C是A的间接密度可达，不能说A是C的间接密度可达；

接下来，防疫人员又要对C的邻域进行排查，发现C的活动范围内也有3个确诊者，那么C也是一个 核心， 而这3个确诊者当中，有一个没有来过B的活动范围 ，称之为D；

那么，D是C的直接密度可达，D是B的间接密度可达，D是A的密度相连。密度相连是一个对称的概念，因为二者都与C有关；

然后，上面的这些人的活动区域连接起来，则就构成了整个中高风险地区，也就是一个簇；

假设在另一个区域又突然发现一名确诊者，经排查后，如果这个确诊者也作为核心向周围扩散发现很多确诊者，那么这就形成了一个 新的簇 ；

如果其所在区除了他自己，没有别的确诊病例了，因此，这个就是属于 噪声点。

通过上面的举例，应该可以很好理解有关密度聚类的几个概念了，而且能够为后面算法的理解更容易。

那么根据上面簇的概念和所举的例子，有关DBSCAN的算法过程就比较简单理解了：

下面再举一个实际的例子，来看一下DNSCAN的算法处理过程，例子来源于水印。

假设有一组数据，设定MinPts=3，ε=3，数据如图所示：

第一步：

首先扫描点p1(1,2)，以p1为中心：

（1）p1的邻域内有点{p1,p2,p3,p13}，因此p1是核心点；

（2）以p1为核心点，建立簇C1；找出所有与p1的密度可达的点；

（3）p2的邻域内为{p1,p2,p3,p4,p13}，因此p4属于p1的密度可达，p4属于簇C1；

（4）p3的邻域内为{p1,p2,p3,p4,p13}，这些点都已属于簇C1，继续；

（5）p4的邻域内为{ p3,p4,p13 }，这些点也都属于簇C1，继续；

（6）p13的邻域内为{p2,p3,p4,p13}，也都处理过了

至此，以p1为核心的密度可达的数据点搜索完毕，得到簇C1，包含{ p1,p2,p3,p13,p4 }

第二步：

继续扫描点，到p5，以p5为中心：

（1）计算p5邻域内的点{ p5,p6,p7,p8 }，因此p5也是核心点；

（2）以p5为核心点，建立簇C2，找出所有与p5的密度可达的点；

（3）同第一步中一样，依次扫描p6、p7、p8;

得到以p5为核心点的簇C2，包含的点为{ p5,p6,p7,p8 }。

第三步：

继续扫描点，到点p9，以p9为中心：

（1）p9的邻域内的点为{p9}，所以p9b不是核心点，进行下一步

第四步：

继续扫描点，到点p10，以p10为中心：

（1）p10的领域内的点为{ p10,p11 }，所以p10不是核心点，进行下一步。

第五步：

继续扫描到点p11，以p11为中心：

（1）计算p11邻域内的点为{ p11,p10,p12 }，所以p11是核心点；

（2）以p11为核心点建立簇C3，找出所有的密度可达点；

（3）p10已被处理处理过，继续扫描；

（4）扫描p12，p12邻域内{ p12,p11 }；

至此，p11的密度可达点都搜索完毕，形成簇C3，包含的点为{ p11,p10,p12 }

第六步：

继续扫描点，p12，p13都已被处理过，至此所有点都被处理过，算法结束。

下面对DBSCAN进行算法的实现，首先是算法的步骤实现，然后再用sklearn进行实现：

import numpy as np
import random
import matplotlib.pyplot as plt
import copy
from sklearn import datasets

&#x641C;&#x7D22;&#x90BB;&#x57DF;&#x5185;&#x7684;&#x70B9;
def find_neighbor(j, x, eps):
"""
    :param j: &#x6838;&#x5FC3;&#x70B9;&#x7684;&#x7D22;&#x5F15;
    :param x: &#x6570;&#x636E;&#x96C6;
    :param eps:&#x90BB;&#x57DF;&#x534A;&#x5F84;
    :return:
"""
    temp = np.sum((x - x[j]) ** 2, axis=1) ** 0.5
    N = np.argwhere(temp <= eps).flatten().tolist() return n def dbscan(x, eps, minpts): k="-1" # 保存每个数据的邻域 neighbor_list="[]" 核心对象的集合 omega_list="[]" 初始化，所有的点记为未处理 gama="set([x" for x in range(len(x))]) cluster="[-1" _ range(len(x))] i range(len(x)): neighbor_list.append(find_neighbor(i, x, eps)) if len(neighbor_list[-1])>= MinPts:
            omega_list.append(i)

    omega_list = set(omega_list)
    while len(omega_list) > 0:
        gama_old = copy.deepcopy(gama)
        # &#x968F;&#x673A;&#x9009;&#x53D6;&#x4E00;&#x4E2A;&#x6838;&#x5FC3;&#x70B9;
        j = random.choice(list(omega_list))
        # &#x4EE5;&#x8BE5;&#x6838;&#x5FC3;&#x70B9;&#x5EFA;&#x7ACB;&#x7C07;Ck
        k = k + 1
        Q = list()
        # &#x9009;&#x53D6;&#x7684;&#x6838;&#x5FC3;&#x70B9;&#x653E;&#x5165;Q&#x4E2D;&#x5904;&#x7406;&#xFF0C;Q&#x4E2D;&#x53EA;&#x6709;&#x4E00;&#x4E2A;&#x5BF9;&#x8C61;
        Q.append(j)
        # &#x9009;&#x53D6;&#x6838;&#x5FC3;&#x70B9;&#x540E;&#xFF0C;&#x5C06;&#x6838;&#x5FC3;&#x70B9;&#x4ECE;&#x6838;&#x5FC3;&#x70B9;&#x5217;&#x8868;&#x4E2D;&#x5220;&#x9664;
        gama.remove(j)
        # &#x5904;&#x7406;&#x6838;&#x5FC3;&#x70B9;&#xFF0C;&#x627E;&#x51FA;&#x6838;&#x5FC3;&#x70B9;&#x6240;&#x6709;&#x5BC6;&#x5EA6;&#x53EF;&#x8FBE;&#x70B9;
        while len(Q) > 0:
            q = Q[0]
            # &#x5C06;&#x6838;&#x5FC3;&#x70B9;&#x79FB;&#x51FA;&#xFF0C;&#x5E76;&#x5F00;&#x59CB;&#x5904;&#x7406;&#x8BE5;&#x6838;&#x5FC3;&#x70B9;
            Q.remove(q)
            # &#x7B2C;&#x4E00;&#x6B21;&#x5224;&#x5B9A;&#x4E3A;True&#xFF0C;&#x540E;&#x9762;&#x5982;&#x679C;&#x8FD9;&#x4E2A;&#x6838;&#x5FC3;&#x70B9;&#x5BC6;&#x5EA6;&#x53EF;&#x8FBE;&#x7684;&#x70B9;&#x8FD8;&#x6709;&#x6838;&#x5FC3;&#x70B9;&#x7684;&#x8BDD;
            if len(neighbor_list[q]) >= MinPts:
                # &#x6838;&#x5FC3;&#x70B9;&#x90BB;&#x57DF;&#x5185;&#x7684;&#x672A;&#x88AB;&#x5904;&#x7406;&#x7684;&#x70B9;
                delta = set(neighbor_list[q]) & gama
                delta_list = list(delta)
                # &#x5F00;&#x59CB;&#x5904;&#x7406;&#x672A;&#x88AB;&#x5904;&#x7406;&#x7684;&#x70B9;
                for i in range(len(delta)):
                    # &#x653E;&#x5165;&#x5F85;&#x5904;&#x7406;&#x5217;&#x8868;&#x4E2D;
                    Q.append(delta_list[i])
                    # &#x5C06;&#x5DF2;&#x5904;&#x7406;&#x7684;&#x70B9;&#x79FB;&#x51FA;&#x6807;&#x8BB0;&#x5217;&#x8868;
                    gama = gama - delta
        # &#x672C;&#x8F6E;&#x4E2D;&#x88AB;&#x79FB;&#x9664;&#x7684;&#x70B9;&#x5C31;&#x662F;&#x5C5E;&#x4E8E;Ck&#x7684;&#x70B9;
        Ck = gama_old - gama
        Cklist = list(Ck)
        # &#x4F9D;&#x6B21;&#x6309;&#x7167;&#x7D22;&#x5F15;&#x653E;&#x5165;cluster&#x7ED3;&#x679C;&#x4E2D;
        for i in range(len(Ck)):
            cluster[Cklist[i]] = k
        omega_list = omega_list - Ck
    return cluster

X1, y1 = datasets.make_circles(n_samples=2000, factor=.6, noise=.02)
X2, y2 = datasets.make_blobs(n_samples=400, n_features=2, centers=[[1.2, 1.2]], cluster_std=[[.1]], random_state=9)
X = np.concatenate((X1, X2))
eps = 0.08
min_Pts = 10
C = DBSCAN(X, eps, min_Pts)
plt.figure()
plt.scatter(X[:, 0], X[:, 1], c=C)
plt.show()</=>

运行结果如图所示：

然后就是利用sklearn中的DBSCAN类进行实现：

from sklearn.cluster import DBSCAN

model = DBSCAN(eps=0.08, min_samples=10, metric='euclidean', algorithm='auto')
"""
eps: &#x90BB;&#x57DF;&#x534A;&#x5F84;
min_samples&#xFF1A;&#x5BF9;&#x5E94;MinPts
metrics: &#x90BB;&#x57DF;&#x5185;&#x8DDD;&#x79BB;&#x8BA1;&#x7B97;&#x65B9;&#x6CD5;&#xFF0C;&#x4E4B;&#x524D;&#x5728;&#x5C42;&#x6B21;&#x805A;&#x7C7B;&#x4E2D;&#x5DF2;&#x7ECF;&#x8BF4;&#x8FC7;&#xFF0C;&#x53EF;&#x9009;&#x6709;&#xFF1A;
        &#x6B27;&#x5F0F;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;euclidean&#x201D;
        &#x66FC;&#x54C8;&#x987F;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;manhattan&#x201D;
        &#x5207;&#x6BD4;&#x96EA;&#x592B;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;chebyshev&#x201D;
        &#x95F5;&#x53EF;&#x592B;&#x65AF;&#x57FA;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;minkowski&#x201D;
        &#x5E26;&#x6743;&#x91CD;&#x7684;&#x95F5;&#x53EF;&#x592B;&#x65AF;&#x57FA;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;wminkowski&#x201D;
        &#x6807;&#x51C6;&#x5316;&#x6B27;&#x5F0F;&#x8DDD;&#x79BB;&#xFF1A; &#x201C;seuclidean&#x201D;
        &#x9A6C;&#x6C0F;&#x8DDD;&#x79BB;&#xFF1A;&#x201C;mahalanobis&#x201D;
algorithm&#xFF1A;&#x6700;&#x8FD1;&#x90BB;&#x641C;&#x7D22;&#x7B97;&#x6CD5;&#x53C2;&#x6570;&#xFF0C;&#x7B97;&#x6CD5;&#x4E00;&#x5171;&#x6709;&#x4E09;&#x79CD;&#xFF0C;
        &#x7B2C;&#x4E00;&#x79CD;&#x662F;&#x86EE;&#x529B;&#x5B9E;&#x73B0;&#x2018;brute&#x2019;&#xFF0C;
        &#x7B2C;&#x4E8C;&#x79CD;&#x662F;KD&#x6811;&#x5B9E;&#x73B0;&#x2018;kd_tree&#x2019;&#xFF0C;
        &#x7B2C;&#x4E09;&#x79CD;&#x662F;&#x7403;&#x6811;&#x5B9E;&#x73B0;&#x2018;ball_tree&#x2019;&#xFF0C;
        &#x2018;auto&#x2019;&#x5219;&#x4F1A;&#x5728;&#x4E0A;&#x9762;&#x4E09;&#x79CD;&#x7B97;&#x6CD5;&#x4E2D;&#x505A;&#x6743;&#x8861;
leaf_size&#xFF1A;&#x6700;&#x8FD1;&#x90BB;&#x641C;&#x7D22;&#x7B97;&#x6CD5;&#x53C2;&#x6570;&#xFF0C;&#x4E3A;&#x4F7F;&#x7528;KD&#x6811;&#x6216;&#x8005;&#x7403;&#x6811;&#x65F6;&#xFF0C; &#x505C;&#x6B62;&#x5EFA;&#x5B50;&#x6811;&#x7684;&#x53F6;&#x5B50;&#x8282;&#x70B9;&#x6570;&#x91CF;&#x7684;&#x9608;&#x503C;
p: &#x6700;&#x8FD1;&#x90BB;&#x8DDD;&#x79BB;&#x5EA6;&#x91CF;&#x53C2;&#x6570;&#x3002;&#x53EA;&#x7528;&#x4E8E;&#x95F5;&#x53EF;&#x592B;&#x65AF;&#x57FA;&#x8DDD;&#x79BB;&#x548C;&#x5E26;&#x6743;&#x91CD;&#x95F5;&#x53EF;&#x592B;&#x65AF;&#x57FA;&#x8DDD;&#x79BB;&#x4E2D;p&#x503C;&#x7684;&#x9009;&#x62E9;&#xFF0C;p=1&#x4E3A;&#x66FC;&#x54C8;&#x987F;&#x8DDD;&#x79BB;&#xFF0C; p=2&#x4E3A;&#x6B27;&#x5F0F;&#x8DDD;&#x79BB;&#x3002;

"""
model.fit(X)
plt.figure()
plt.scatter(X[:, 0], X[:, 1], c=model.labels_)
plt.show()

上面一些参数是需要调的，如eps和MinPts，基于 密度聚类对这两个参数敏感。

关于DBSCAN的优缺点：

优点

1、不必指定聚类的类别数量；

2、可以形成任意形状的簇，而K-means只适用于凸数据集；

3、对于异常值不敏感；

缺点：

1、计算量较大，对于样本数量和维度巨大的样本，计算速度慢，收敛时间长，这时可以采用KD树进行改进；

2、对于eps和MinPts敏感，调参复杂，需要联合调参；

3、样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用 DBSCAN 算法一般不适合；

4、样本同采用一组参数聚类，有时不同的簇的密度不一样，有人提出OPTICS聚类算法（有空会把这一算法补上）；

5、由于对噪声不敏感，在一些领域，如异常检测不适用。

Original: https://blog.csdn.net/Python_xiaowu/article/details/121983688
Author: Python_xiaowu
Title: 【Python机器学习实战】聚类算法——层次聚类(HAC)和DBSCAN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549602/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch: 图像恢复问题的代码实现详解(derain,dehaze,deblur,denoise等通用)

文章目录 * – + 前言 + 数据集 + * 训练数据集 * 评估数据集 * 测试数据集 + 网络模型 + 自定义工具包 + 网络训练和测试 + 结语前言图像恢复…

人工智能 2023年6月17日
0080
解决OpenCV 中imread函数读取不到数据问题

本人的环境是Qt 5.14.1+VS2017+OpenCV 3.4.16，创建HelloWorld项目后一直读不到图片内容，针对能搜到的经验，全都尝试了还是无果，以下是尝试过程。 …

人工智能 2023年7月18日
0043
卷积神经网络实战——表情识别（Pytorch）超详细理解，含Pyqt5的可操作界面

卷积神经网络实战——表情识别（Pytorch）这里作一下申明，之前对于神经网络的搭建解释的不够全面，这里进行补充，训练过程的代码可能太过繁琐不好理解，现在进行补充和修改，然后关于…

人工智能 2023年7月21日
0065
PointPillars 工程复现

PointPillars 工程复现 先赞后看，养…

人工智能 2023年7月28日
0056
文本编码方式（词向量提取方式）

文章目录 1. 文本编码方式 * 1.1 one-hot 1.2 分布式表示 2. 分布式表示 * 2.1 基于矩阵的分布式表示 – 2.1.1 GloVe + 步骤 …

人工智能 2023年5月31日
0076
使用python对bin文件进行操作

博主想对神经网络模型的参数写入 bin 文件，方便在后续创建IP的过程中读取数据进行验证，记录 python 读取 pytorch 的模块参数并进行bin文件写入和读取操作。本文以…

人工智能 2023年7月23日
0082
训练好的YoloV5模型进行目标检测

接上一篇博客，本篇记录第一次训练的检测效果训练得到的最优模型在…\runs\train\exp6\weights\best.pt位置激活yolov5py38环境，进入…

人工智能 2023年7月9日
0053
知识图谱：IMGpedia: A Linked Dataset with Content-Based Analysis of Wikimedia Images（IMGpedia文献综述2）

IMGpedia: A Linked Dataset with Content-Based Analysis of Wikimedia Images ps:（IMGpedia: 2…

人工智能 2023年6月1日
0083
WiMi：使用商品Wi-Fi设备识别目标材料

摘要目标材料识别在我们的日常生活中发挥着重要作用。传统的基于摄像头和视频的方法带来了严重的隐私问题。在过去几年中，虽然射频信号已被用于定位、活动跟踪甚至呼吸，但很少有人关注材料识…

人工智能 2023年5月25日
0073
图像质量评估(5) — 畸变(Distortion)

当图像中原本应该是直线的地方看起来发生了不自然的变形或扭曲时，我们称为图像畸变。有三种类型的镜头畸变：桶形畸变（后文使用英文barrel），枕形畸变（后文使用pincushion）…

人工智能 2023年6月18日
0055
手撸一个在线学习在线教育小程序

最近有小伙伴找小孟开发了一个在线教育的小程序项目。一，小程序介绍微信小程序，它的简称是小程序，其英文名称叫做Mini Program，是一种不需要在手机应用商店里面下载就可以在…

人工智能 2023年5月31日
0057
Pandas数据预处理2–清洗数据

1.1 记录重复–list去重 ##定义去重函&#…

人工智能 2023年7月6日
00112
大数据项目之电商数仓、业务数据介绍、业务数据模拟、生成业务数据、业务数据建模

文章目录 6. 业务数据介绍 * 6.5 业务数据模拟 – 6.5.1 连接MySQL 6.5.2 建表语句 6.5.3 生成业务数据 + 6.5.3.1 在hadoo…

人工智能 2023年6月26日
0068
【opencv-cv2】图像读取、显示和存储

常用API（Application Program Interface） 1.图片读取 – cv2.imread(filename, flags): filename:…

人工智能 2023年6月19日
0079
二维平面中相对坐标与绝对坐标的转换公式

public class CoordTrans7Param { public double[,] values=new double[7,1]; //{{dx},{dy},{dz}…

人工智能 2023年6月10日
0099
机器学习分类算法之支持向量机

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月23日
0077

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【Python机器学习实战】聚类算法——层次聚类(HAC)和DBSCAN

层次聚类和DBSCAN

1.层次聚类

2.DBSCAN

大家都在看