聚类–DBSCAN算法

2023年5月31日上午9:41 • 人工智能 • 阅读 113

模型：
sklearn.cluster.DBSCAN(eps=0.5, min_samples=5, metric=’euclidean’, metric_params=None, algorithm=’auto’, leaf_size=30, p=None, n_jobs=None)

首先看下数据集分布是什么样的


import numpy as np
import matplotlib.pyplot as plt
import scipy.io as sio
from sklearn.cluster import DBSCAN
%matplotlib notebook
path='D:\code\python\database\ex7data2'
data=sio.loadmat(path)
X=data['X']
plt.scatter(X[:,0],X[:,1])

<ipython.core.display.javascript object>
</ipython.core.display.javascript>

<matplotlib.collections.pathcollection at 0x25398236ac8>
</matplotlib.collections.pathcollection>

利用sklearn模型聚类

model = DBSCAN(0.5,4)
model.fit(X)
print(set(model.labels_))
plt.scatter(X[:,0],X[:,1],c=model.labels_,cmap='rainbow')

{0, 1, 2, -1}

<ipython.core.display.javascript object>
</ipython.core.display.javascript>

<matplotlib.collections.pathcollection at 0x25398414e10>
</matplotlib.collections.pathcollection>

结果显示聚类簇数为3，蓝色点为噪声点

class DBSCAN_my:
    def __init__(self,eps,min_samples):
        self.eps = eps
        self.min_samples = min_samples

    def calCoreSamples(self,X):
        m = X.shape[0]
        core_samples = {}
        for i in range(m):
            samples = []
            count = 0
            for j in range(m):
                dist = np.sqrt(np.sum((X[i]-X[j])**2))
                if dist < self.eps:
                    samples.append(j)
                    count += 1
            if count > self.min_samples:
                samples.remove(i)
                core_samples[i] = samples
        return core_samples

    def cluster(self,value,core_samples,k):
        for i in value:
            if self.labels[i]==-1:
                self.labels[i] = k
                if i in core_samples:
                    self.cluster(core_samples[i],core_samples,k)

    def fit(self,X):

        core_samples = self.calCoreSamples(X)

        self.labels = -np.ones(X.shape[0])
        k = 0

        for key,value in core_samples.items():
            if self.labels[key] == -1:

                self.labels[key] = k

                self.cluster(value,core_samples,k)
                k += 1

model = DBSCAN_my(0.5,4)
model.fit(X)
print(set(model.labels))
plt.scatter(X[:,0],X[:,1],c=model.labels,cmap='rainbow')

{0.0, 1.0, 2.0, -1.0}

<ipython.core.display.javascript object>
</ipython.core.display.javascript>

<matplotlib.collections.pathcollection at 0x253985be940>
</matplotlib.collections.pathcollection>

Original: https://blog.csdn.net/qq_45420034/article/details/123017968
Author: Let it go !
Title: 聚类–DBSCAN算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550332/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python如何设置双索引_Python中如何给DataFrame对象设置索引或者说增加索引？设定索引后有什么变化？如何删除索引？…

Python中如何给DataFrame对象设置索引？设定索引后有什么变化？如何删除索引？一、如何设置索引，使用set_index函数看一个例子： import pandas a…

人工智能 2023年7月8日
00106
对TIMIT数据进行格式转换（windows解决报错wave.Error: file does not start with RIFF id）

对TIMIT数据进行格式转换（windows解决报错wave.Error: file does not start with RIFF id）在语音识别中，常用的语音开源数据库T…

人工智能 2023年5月27日
0070
TensorFlow实现自注意力机制（Self-attention）

TensorFlow实现自注意力机制（Self-attention） * – 自注意力机制(Self-attention) – + 计算机视觉中的自注意力 …

人工智能 2023年5月23日
0098
AI遮天传 DL-CNN

上次我们介绍了多层感知机(MLP)，本次将介绍深度学习领域中第二个基本的模型：卷积神经网络(CNN)。CNN在MLP之上又引入了两种新的层：卷积层和池化层。一、简介 1.1 大脑…

人工智能 2023年6月23日
0078
机器学习之线性回归

文章目录一、线性回归 * 1、普通线性回归（Linear Regression） 2、岭回归（Ridge Regression） 3、套索回归（lasso回归）二、python…

人工智能 2023年6月17日
0064
Pytorch用法说明

1. pytorch基本用法 1. torch.tensor torch.tensor是默认的tensor类型（torch.Floattensor）的简称。 2. torch.Te…

人工智能 2023年7月24日
0065
基于R语言的数据分析报告

基于R语言的数据分析报告（很多同学私信反馈通过kaggle没办法下载数据集，我把数据集上传到百度云供大家取用，链接:https://pan.baidu.com/s/1S48WWm…

人工智能 2023年6月19日
0096
Pytorch中DataLoader和Dataset的基本用法

文章目录 DataLoader支持的两种数据集 Iterator格式的DataLoader * Python的Iterator格式数据简介 Pytorch使用DataLoader …

人工智能 2023年7月23日
00112
重磅发布！东方国信发布分布式图数据库CirroData-Graph，布局国产数据库细分领域

近日，东方国信发布了分布式图数据库CirroData-Graph，以满足包括深度关系探索、关联分析、路径搜索、特征抽取、数据聚类、社区检测、知识图谱等应用场景对图数据库的需求。Ci…

人工智能 2023年6月10日
0048
Web3.0是什么？程序员如何抓住Web3.0时代机遇

最近Web3.0 ,元宇宙的话题是今年技术热门话题之一；所以今天也想来写梳理一篇关于Web 3.0，和作为程序员的一些思考。 Web这个词已经诞生了 31 年，WWW（万维网）系…

人工智能 2023年6月23日
0079
一文带你了解 CAN 总线

一、CAN 简介 CAN：Controller Area Network，控制局域网络，最早由德国 BOSCH(博世)开发，，目前已经是国际标准(ISO 11898)，是当前应用最…

人工智能 2023年6月2日
0071
Pyts入门之时间序列的分类—TimeSeriesBOF算法（六）

简介时间序列分类算法的最后一篇，本算法全名叫做 Time Series Bag-of-Features算法，相当于上一节TimeSeriesForest算法的改进版或者说复杂版，…

人工智能 2023年7月3日
0084
【车辆行人检测和跟踪数据集及代码汇总】

车辆行人检测和跟踪数据集和代码汇总 * – 1. 车辆检测和跟踪 – + 1.1 车辆检测数据集和训练权重 + 1.2 车辆跟踪 – 2. 行人…

人工智能 2023年6月17日
00104
注意力机制详解(小白入门)

文章目录 * – 产生原因 – 注意力机制类型 – + 最大池化与平均池化的注意力机制 + 注意力池化 + 层次池化- 引入时序，更新V + 循…

人工智能 2023年5月28日
00103
opencv-python 人脸识别检测+人脸马赛克

模型文件人脸检测模型文件进入网址后点击下载即可本文所使用的函数 cv2.rectangle() 在图像上绘制一个简单的矩形参数： img：要划的线所在的图像; pt1：左…

人工智能 2023年7月19日
0051
Bootstrapping 简介，应用，利弊分析

我之前一直以为Bootstrap 和Bootstrapping 是一样的，但事实上并非如此。Bootstrap 其实是一个前端开发框架，而Bootstrapping 则是一种算法，…

人工智能 2023年6月1日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

聚类–DBSCAN算法

大家都在看