sklearn聚类算法之DBSCAN

2023年6月15日上午7:57 • 人工智能 • 阅读 83

基本思想

聚类是很多观察值紧密聚集在一起的区域，DBSCAN算法就是受这一点的启发而来的，它对于聚类的形状没有做任何假设。具体来说，DBSCAN算法有如下几步：

DBSCAN对象需要设置以下三个主要参数。

eps：从一个观察值到另一个观察值得最远距离，超过这个距离将不再认为二者是邻居

min_samples：最小限度的邻居数量，如果一个观察值在其周围小于eps距离的范围内有超过这个数量的邻居，就被认为是核心观察值

metric：eps所用的距离度量，比如 minkowski(闵可夫斯基距离)或者 euclidean(欧式距离)。注意，如果使用闵可夫斯基距离，就可以用参数p设定闵可夫斯基中的幂次。

API学习

class sklearn.cluster.DBSCAN(
    eps=0.5,
    *,
    min_samples=5,
    metric='euclidean',
    metric_params=None,
    algorithm='auto',
    leaf_size=30,
    p=None,
    n_jobs=None
)

参数类型解释epsfloat, default=0.5邻域的距离阈值

min_samplesint, default=5样本点要成为核心对象所需要的邻域的样本数阈值metricstr, or callable, default=’euclidean’度量方式，默认为欧式距离，可以使用的距离度量参数有’euclidean’/’manhattan’/’chebyshev’/’minkowski’/’wminkowski’/’seuclidean’/’mahalanobis’metric_paramsdict, default=None度量函数的其他关键字参数algorithm{‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’近邻算法求解方式leaf_sizeint, default=30使用’ball_tree’或’kd_tree’时停止建子树的叶子节点数量的阈值pfloat, default=None只用于闵可夫斯基距离和带权重闵可夫斯基距离中p值的选择，p=1为曼哈顿距离，p=2为欧式距离。n_jobsint, default=NoneCPU并行数，值为-1时使用所有CPU运算属性类型解释core_sample_indices_ndarray of shape(n_core_samples,)包含每个核心实例的索引components_ndarray of shape(n_core_samples, n_features)核心实例本身labels_ndarray of shape(n_samples)分类结果n_features_in_int拟合期间的特征个数feature_names_in_ndarray of shape(n_features_in_,)拟合期间的特征名称方法说明fit(X[, y, sample_weight])Perform DBSCAN clustering from features, or distance matrix.fit_predict(X[, y, sample_weight])Compute clusters from a data or distance matrix and predict labels.get_params([deep])Get parameters for this estimator.set_params(**params)Set the parameters of this estimator.

代码示例

>>> from sklearn.cluster import DBSCAN
>>> import numpy as np
>>> X = np.array([[1, 2], [2, 2], [2, 3],
...               [8, 7], [8, 8], [25, 80]])
>>> clustering = DBSCAN(eps=3, min_samples=2).fit(X)
>>> clustering.labels_
array([ 0,  0,  0,  1,  1, -1])
>>> clustering
DBSCAN(eps=3, min_samples=2)

参考文献

[1] Ester, M., H. P. Kriegel, J. Sander, and X. Xu, “A Density-Based Algorithm for Discovering Clusters in Large Spatial Databases with Noise”. In: Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining, Portland, OR, AAAI Press, pp. 226-231. 1996

[2] Schubert, E., Sander, J., Ester, M., Kriegel, H. P., & Xu, X. (2017). DBSCAN revisited, revisited: why and how you should (still) use DBSCAN. ACM Transactions on Database Systems (TODS), 42(3), 19.

Original: https://blog.csdn.net/qq_45448654/article/details/120850612
Author: GallopZhang
Title: sklearn聚类算法之DBSCAN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/614156/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

目标检测评价指标mAP

目标检测评价指标 mAP是目标检测中常用的评价指标之一，在论文中可以经常看到。全称是 mean average precision (mAP)即各个类别AP的平均值。常用的评测指标…

人工智能 2023年7月12日
0040
相机模型、相机标定及基于yolov5的单目测距实现

相机模型、相机标定及基于yolov5的单目测距实现 * – 1 前言 – 2 相机模型及单目测距原理 – 3 相机参数标定 – + …

人工智能 2023年7月4日
0073
Matplotlib的基本使用

文章目录 1. 什么是Matplotlib 2. 安装和基本使用 3.点线缩写和颜色的选择 4. 设置图的信息 * 4.1 设置线条样式的方法 4. 2 设置轴和标题 &#8211…

人工智能 2023年6月11日
0062
机器学习分类问题指标评估内容详解（准确率、精准率、召回率、F1、ROC、AUC等）

文章目录前言一、混淆矩阵（confusion matrix）二、准确率，精准率，召回率，F1分数 * 1. 准确率（Accuracy） 2. 精确率（Precision） 3…

人工智能 2023年6月24日
0054
openCV——图像金字塔

图像金字塔理论基础通常情况下，图像金字塔的底部是待处理的高分辨率图像（原始图像），而顶部则为其低分辨率的近似图像。向金字塔的顶部移动时，图像的尺寸和分辨率都不断地降低。通常情况…

人工智能 2023年6月18日
0088
Python基础篇：某宝一键秒杀，毫秒级的精准度

某宝秒杀，用毫秒级的精准度来抢购！前言还记得前段时间情人节，各种产品活动秒杀。结果有对象的辣条自然少不了被对象一番折磨（注意：不是new出来的哈，也不是橡胶的，实实在在的女朋…

人工智能 2023年7月4日
0050
聚类算法(无监督学习)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月31日
0076
SwiftUI———如何使用Core Image官方滤镜（CIFilter）来处理照片

苹果在Core Image API中提供了14个大类、共174个图像处理方式以及一些常见滤镜，其中一些滤镜还能处理视频甚至是实时视频，各个滤镜详情参见：https://develo…

人工智能 2023年6月22日
00105
论文浅尝 – ACL2020 | IntKB: 一种交互式知识图谱补全框架

笔记整理 | 谭亦鸣，东南大学博士来源: ACL 2020 链接：https://www.aclweb.org/anthology/2020.coling-main.490.pd…

人工智能 2023年6月1日
0093
Python or html爱心代码（听说最近很火）

下面第四个最近抖音莫名很火的一个爱心❤️ 实现的方法不尽相同，重要的是心意而不是代码本身前三种用Python来实现，最后一种较为复杂，是用HTML来实现，是笔者搜集而来 1. …

人工智能 2023年7月3日
0052
深度学习-图神经网络总结

深度学习图神经网络总结 GNN在推荐系统中有哪些用法介绍下Graph Embedding（图嵌入）介绍下GCN 训练图模型的loss有哪些 GCN、GraphSAGE、GAT的…

人工智能 2023年7月13日
0068
推荐系统笔记（一）：BPR Loss个性化推荐

参考论文 https://arxiv.org/ftp/arxiv/papers/1205/1205.2618.pdf 背景介绍在常规的推荐系统统计算法中，我们通常是通过现有数据集…

人工智能 2023年6月23日
00103
Python中的字典

字典概念 Python内置的数据结构之一，与列表一样是一个可变序列。以键值对的方式存储数据，字典是一个无序的序列。（列表是有序的）字典通过计算key的hash值确定存储位置，所…

人工智能 2023年7月4日
0070
5G时代带动陶瓷PCB成长——GPS陶瓷天线调试方法（二）

2.2开槽Slot-Y 切削Slot-Y位置，在Smith Chart 上可看出其轨迹图会以外圈为圆心，依顺时针的方向旋转偏向电容性阻抗。需要特别注意的是切削Slot-Y位置，原则…

人工智能 2023年6月28日
00110
卷积神经网络CNN原理+代码（pytorch实现MNIST集手写数字分类任务）

目录 * – 卷积神经网络 – + * 前言 * 卷积运算： * 卷积运算中几个常用的参数 * – 1.padding – 2.st…

人工智能 2023年7月3日
00110
高斯过程是什么？从视觉上理解机器学习中的高斯过程——Gaussian Process

——如何将一组小型构建块转变为解决回归问题的灵活的工具。目录 Introduction 简介 Multivariate Gaussian distributions 多元高斯分布…

人工智能 2023年6月29日
0096

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

sklearn聚类算法之DBSCAN

大家都在看