python实现DBSCAN聚类

2023年5月31日上午6:48 • 人工智能 • 阅读 82

该博客配套代码、数据及PPT见百度网盘

链接：https://pan.baidu.com/s/1j1iWnhXmQiAnQ7VnfsCIrQ
提取码：6666

算法实战

数据为31个省份的出生率和死亡率，文件名为Province.xlsx

在密度聚类算法的实战部分，我们将使用国内31个省份的人口出生率和死亡率数据作为分析对象。首先，将数据读入到Python中，并绘制出生率和死亡率数据的散点图，代码如下：

import pandas as pd
import matplotlib.pyplot as plt

读取外部数据
Province = pd.read_excel(r'D:\myPythonFiles\python数据分析\TextbookCode\密度聚类\Province.xlsx')
Province.head()  # 显示表格的前五行
绘制出生率与死亡率散点图
plt.scatter(Province.Birth_Rate, Province.Death_Rate)  # Birth_Rate作为x Death_Rate作为y
添加轴标签
plt.xlabel('Birth_Rate')
plt.ylabel('Death_Rate')
显示图形
plt.show()

import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing  # 用于变量的标准化处理
from sklearn import cluster
import numpy as np

选取建模的变量
predictors = ['Birth_Rate', 'Death_Rate']
变量的标准化处理
X = preprocessing.scale(Province[predictors])
X = pd.DataFrame(X)

构建空列表，用于保存不同参数组合下的结果
res = []
迭代不同的eps值
for eps in np.arange(0.001, 1, 0.05):
    # 迭代不同的min_samples值
    for min_samples in range(2, 10):
        dbscan = cluster.DBSCAN(eps=eps, min_samples=min_samples)
        # 模型拟合
        dbscan.fit(X)
        # 统计各参数组合下的聚类个数（-1表示异常点）
        n_clusters = len([i for i in set(dbscan.labels_) if i != -1])
        # 异常点的个数
        outlines = np.sum(np.where(dbscan.labels_ == -1, 1, 0))
        # 统计每个簇的样本个数
        stats = str(pd.Series([i for i in dbscan.labels_ if i != -1]).value_counts().values)
        res.append({'eps': eps, 'min_samples': min_samples, 'n_clusters': n_clusters, 'outlines': outlines, 'stats': stats})

将迭代后的结果存储到数据框中
df = pd.DataFrame(res)
根据条件筛选合理的参数组合
print(df.loc[df.n_clusters == 3, :])

我们通过把不同参数组合下的结果保存下来，寻找较为合理的聚类结果。

如上表所示，如果需要将数据聚为3 类，则得到如上几种参数组合，这里 不妨选择 eps 为 0.801 ， min_samples 为 3 的参数值（因为该参数组合下的异常点个数比较合理）。接下来，利用如上所得的参数组合，构造密度聚类模型，实现原始数据集的聚类

该算法完整代码如下：

导入模块
coding=utf-8
import pandas as pd
import matplotlib.pyplot as plt
from sklearn import preprocessing  # 用于变量的标准化处理
from sklearn import cluster
import numpy as np
import seaborn as sns  # 用于绘制聚类的效果散点图

用于DataFrame显示所有列
pd.set_option('display.max_columns', None)
显示所有行
pd.set_option('display.max_rows', None)

用于最后输出的图形汉字显示正常
plt.rcParams['font.sans-serif'] = ['SimHei']  # 显示中文
plt.rcParams['axes.unicode_minus'] = False  # 正常显示负号

读取外部数据
Province = pd.read_excel(r'D:\myPythonFiles\python数据分析\TextbookCode\密度聚类\Province.xlsx')
Province.head()  # 显示表格的前五行
绘制出生率与死亡率散点图
plt.scatter(Province.Birth_Rate, Province.Death_Rate)  # Birth_Rate作为x Death_Rate作为y
添加轴标签
plt.xlabel('Birth_Rate')
plt.ylabel('Death_Rate')
显示图形
plt.show()

选取建模的变量
predictors = ['Birth_Rate', 'Death_Rate']
变量的标准化处理
X = preprocessing.scale(Province[predictors])
X = pd.DataFrame(X)

构建空列表，用于保存不同参数组合下的结果
res = []
迭代不同的eps值
for eps in np.arange(0.001, 1, 0.05):
    # 迭代不同的min_samples值
    for min_samples in range(2, 10):
        dbscan = cluster.DBSCAN(eps=eps, min_samples=min_samples)
        # 模型拟合
        dbscan.fit(X)
        # 统计各参数组合下的聚类个数（-1表示异常点）
        n_clusters = len([i for i in set(dbscan.labels_) if i != -1])
        # 异常点的个数
        outlines = np.sum(np.where(dbscan.labels_ == -1, 1, 0))
        # 统计每个簇的样本个数
        stats = str(pd.Series([i for i in dbscan.labels_ if i != -1]).value_counts().values)
        res.append({'eps': eps, 'min_samples': min_samples, 'n_clusters': n_clusters, 'outlines': outlines, 'stats': stats})

将迭代后的结果存储到数据框中
df = pd.DataFrame(res)
根据条件筛选合理的参数组合
print(df.loc[df.n_clusters == 3, :])

利用上述的参数组合值，重建密度聚类算法
dbscan = cluster.DBSCAN(eps=0.801, min_samples=3)
模型拟合
dbscan.fit(X)
Province['dbscan_label'] = dbscan.labels_
绘制聚类的效果散点图  hue用于分类
sns.lmplot(x='Birth_Rate', y='Death_Rate', hue='dbscan_label', data=Province,
           markers=['*', 'd', '^', 'o'], fit_reg=False, legend=False)
添加省份标签
for x, y, text in zip(Province.Birth_Rate, Province.Death_Rate, Province.Province):
    plt.text(x+0.1, y-0.1, text, size=8)
添加参考线
plt.hlines(y=5.8, xmin=Province.Birth_Rate.min(), xmax=Province.Birth_Rate.max(),
           linestyles='--', colors='red')
plt.vlines(x=10, ymin=Province.Death_Rate.min(), ymax=Province.Death_Rate.max(),
           linestyles='--', colors='red')
添加轴标签
plt.xlabel('Birth_Rate')
plt.ylabel('Death_Rate')
显示图形
plt.show()

如左图所示，三角形、菱形和圆形所代表的点即为三个不同的簇，五角星所代表的点即为异常点，这个聚类效果还是非常不错的，对比建模之前的结论非常吻合。从上图可知， 以北京、天津、上海为代表的省份， 属于低出生率和低死亡率类型； 广东、宁夏和新疆三个省份 属于高出生率和低死亡率类型； 江苏、四川、湖北为代表的省份 属于高出生率和高死亡率类型。 四个异常点中，黑龙江与辽宁比较相似，属于低出生率和高死亡率类型；山东省属于极高出生率和高死亡率的省份；西藏属于高出生率和低死亡率的省份，但它与广东、宁夏和新疆更为相似。

代码中遇到的语法问题

一、for i in set()来迭代遍历去除列表中的重复元素

n_clusters = len([i for i in set(dbscan.labels_) if i != -1])

这句用来统计各参数组合下的聚类个数，对于for in i set() 的用法看下面的例子

list1 = [-1, 111, 111, 222, 777, 777, 333, 444, 555, 666]
for i in list1:
    print(i)

加上set（）后

list1 = [-1, 111, 111, 222, 777, 777, 333, 444, 555, 666]
for i in set(list1):
    print(i)

那么我们就可以理解下面这个语句。

list1 = [-1, 111, 111, 222, 777, 777, 333, 444, 555, 666]
print(len([i for i in set(list1) if i != -1]))

这个语句用来打印出 list1 列表去除了重复元素和-1之后的长度，输出为7。

二、np.where的用法

outlines = np.sum(np.where(dbscan.labels_ == -1, 1, 0))

上面这行代码用来统计不同参数组合下的异常点的个数。

np.where有两种用法
1.np.where(condition,x,y) 当where内有三个参数时，第一个参数表示条件，当条件成立时where方法返回x，当条件不成立时where返回y。
2.np.where(condition) 当where内只有一个参数时，那个参数表示条件，当条件成立时，where返回的是每个符合condition条件元素的坐标,返回的是以元组的形式。

上面这行代码其实就是用法一，dbscan.labels_ == -1是判断条件，当聚类的标签为-1时返回1，否则返回0。最后用np.sum()函数求和就可以得到异常点的个数。

接着我们看下用法二的代码示例：

a = np.array([1, 3, 4, 6, 8, 9])
只有一个参数表示条件的时候
print(np.where(a > 5))

输出为(array([3, 4, 5], dtype=int64),)

注意打印的是数组的下标，并非是数组的元素。

三、pd.Series()的用法

 stats = str(pd.Series([i for i in dbscan.labels_ if i != -1]).value_counts().values)

上面这句是用来统计不同参数组合下的每个簇的样本个数

在pandas里面常用value_counts确认数据出现的频率。看下面的一个例子

ss = pd.Series([-1, 0, 1, 2, 1, 0, 2, 0, 1, 1])
print(ss.value_counts())
print(ss.value_counts().index[0])  # 找频数最高的键

import pandas as pd

ss = pd.Series([-1, 0, 1, 2, 1, 0, 2, 0, 1, 1])
print(ss.value_counts())
print(ss.value_counts().values)

import pandas as pd

labels = [-1, 0, 1, 2, 1, 0, 2, 0, 1, 1]
print(str(pd.Series([i for i in labels if i != -1]).value_counts().values))

四、df.loc的用法

Pandas.DataFrame.loc函数用法大全

Original: https://blog.csdn.net/A1010574609/article/details/124398476
Author: 啃西瓜的小煤球
Title: python实现DBSCAN聚类

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/549532/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

关于父子组件传值中总结（watch， this.$refs的使用）

问题表述：组件化开发中经常用到父子组件的通信，如果父组件的数据是发请求从后端获取的异步数据，那么父组件将这个数据传递给子组件的时候。因为是异步数据，所以会出现父组件传递过去了，但…

人工智能 2023年6月28日
0094
改进YOLOv5系列：9.BoTNet Transformer结构的修改

💡统一使用 YOLOv5 代码框架，结合不同模块来构建不同的YOLO目标检测模型。 🌟本项目包含大量的改进方式,降低改进难度,改进点包含 【Backbone…

人工智能 2023年7月30日
0071
stacking集成模型预测回归问题

前言关于各种集成模型，已经有很多文章做了详细的原理介绍。本文不再赘述stacking的原理，直接通过一个案例，使用stacking集成模型预测回归问题。本文通过学习一篇stack…

人工智能 2023年6月15日
00104
No module named ‘torch_geometric‘解决办法

写在前面 1 不能简单的直接pip install torch_geometric或者 conda install torch_geometric2 直接安装，到后面调用的时候还是…

人工智能 2023年7月21日
0078
PyTorch中的批处理和小批处理有什么区别

问题背景 PyTorch是一个深度学习框架，它提供了很多用于构建神经网络模型的功能。在使用PyTorch进行模型训练时，经常会使用到批处理（batch processing）和小批…

人工智能 2024年1月3日
0042
【Django | 开发】面试招聘网站（增加csv,excel导出&企业域账号集成&日志管理功能）

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。 🌐 推荐一款找工作神器网站: 牛客网🎉🎉|笔试题库|面试经验|实习招聘内推还没账户的…

人工智能 2023年7月6日
0091
AI Studio——百度飞桨初体验

本文介绍了AI Studio的入门使用方法和基础的图形界面，旨在帮助和笔者一样的小白走好深度学习和人工智能的第一步。那么话不多说，现在发车。目录基本概要登录流程用户界面 F…

人工智能 2023年7月28日
0087
用于轨道交通障碍物检测的改进Mask R-CNN

1. 文章信息文章题目为《Improved Mask R-CNN for obstacle detection of rail transit》，是2022年发表在Measure…

人工智能 2023年5月28日
0061
电子测量类期刊筛选

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0076
Java复习，Java知识点以及Java面试题（四）

集合框架：集合只用于存储对象，集合长度是可变的，集合可以存储不同类型的对象。 Collection 集合的顶层接口 Collection 方法概述：添加 boolean add…

人工智能 2023年6月4日
0094
TensorFlow2.8.0代码分析之例子examplesspeech_commandstest_streaming_accuracy之main函数

功能：对于连续的音频流，使用音频识别模型生成识别准确率的统计数据。 [En] Function: for a continuous audio stream, the audio …

人工智能 2023年5月24日
0079
DispatcherServlet的功能简介说明

转自: DispatcherServlet的功能简介说明下文笔者将着重讲述SpringMVC中DispatcherServlet的功能详解，如下所示: DispatcherSer…

人工智能 2023年6月28日
0084
R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值、R语言使用timeROC包可视化无竞争情况下的生存资料多时间ROC曲线

R语言使用timeROC包计算无竞争情况下的生存资料多时间AUC值、R语言使用timeROC包可视化无竞争情况下的生存资料多时间ROC曲线目录 R语言使用timeROC包计算无竞…

人工智能 2023年6月16日
0079
pyhton深度学习基于pytorch——创建Tensor和修改Tensor形状

如果对Tensor的概念理解不清楚请参考我的上一篇文章。先介绍Tensor的.add()和.add_()方法： 1）不修改自身数据，如x.add(y),x的数据不变，返回一个新的…

人工智能 2023年7月23日
0062
关于爬虫技术的探讨

写这篇文章，主要用于交流目的，将自己最近学到的技术进行一个大致的总结。仅此而已，欢迎评论交流。声明：本人写博客纯粹是喜欢python，仅此而已。好啦，废话就这么多，接下来是正文…

人工智能 2023年7月17日
0058
《深度学习之pytorch实战计算机视觉》笔记和代码(可跑通)（全）

最近学习了《深度学习之pytorch实战计算机视觉》这本书。计算机视觉、自然语言处理和语音识别是目前深度学习领域很热门的三大应用方向，《深度学习之PyTorch实战计算机视觉…

人工智能 2023年7月22日
0055

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python实现DBSCAN聚类

一、for i in set()来迭代遍历去除列表中的重复元素

二、np.where的用法

三、pd.Series()的用法

四、df.loc的用法

大家都在看