算法模型之分类模型(无监督学习K-means)

2023年5月31日上午10:09 • 人工智能 • 阅读 90

什么是无监督学习
没有目标值的时候，采用无监督学习。因为不存在学习的对象。
无监督学习包含算法
聚类算法：
K-means(K均值聚类)
降维：
PCA
3.K-means的原理（K-means的算法步骤）
首先，随机寻找K个点（这里的K是想要分成的份数）
第二步，把所有点，向这K个点进行求取距离，距离近的点，标成不同的颜色
第三步，把所有颜色相同的点，进行求取均值，形成一个新的K个中心
第四步，重复第二个步骤，直到前后两次的聚类中心重合或者相差不大的时候，停止聚类
K-means的API
sklearn.cluster.KMeans(n_clusters=8, init=’k-means++’,max_iter)
n_clusters：开始聚类的中心点，也就是K值的个数
init：初始化方法，也就是开始选取聚类点的方法，默认为’k-means++’
max_iter: 迭代次数的限定
K-means模型的评估方法”轮廓系数法”
方法详解：
SCi = (b_i – a_i) / max(b_i, a_i)
a_i代表的是一个类别中的一个样本和另一个类别中样本的距离的平均值
b_i代表的是一个类别中的一个样本和该类别中样本的距离的平均值
当 b_i >> a_i 时，SCi ≈ 1
当 b_i >> a_i 时，SCi ≈ -1
因此我们可以认为，当SCi接近1时，聚类的效果越好，越能达到”高内聚，低耦合”现象。
因此我们可以认为，当SCi接近-1时，聚类的效果越差，越达不到”高内聚，低耦合”现象。
轮廓系数法API：sklearn.metrics.silhouette_score(data, lambel)
data: 就是我们的数据集
lambel: 就是预测得到的结果

注意，无监督学习一般不会用到数据集划分train_test_split函数

对以下数据进行划分无监督学习划分：

城市名称 城市代码 交通健康指数 交通延时指数 高延时运行时间占比 拥堵路段里程比 平均车速 中山市442000 0.743635484 1.595913978 53.13612903 1.679193548 28.26258065 临沂市371300 0.759006452 1.568817204 48.29747312 1.571397849 29.85091398 兰州市620100 0.740470968 1.508978495 37.99290323 1.838548387 27.91311828 南宁市450100 0.757883871 1.478924731 30.01784946 1.26811828 28.51892473 南昌市360100 0.760412903 1.499193548 36.55903226 1.618172043 30.64521505 南通市320600 0.78006129 1.373225806 17.29397849 0.641290323 36.31129032 厦门市350200 0.765535484 1.486290323 35.03580645 1.602096774 33.4133871 台州市331000 0.7707 1.489193548 38.17193548 1.016774194 30.18037634 合肥市340100 0.757322581 1.496451613 39.33693548 1.406505376 29.20225806 哈尔滨市230100 0.753622581 1.565913978 48.02849462 1.943172043 28.65483871 嘉兴市330400 0.778045161 1.384086022 21.68435484 0.524193548 30.47215054 大连市210200 0.740941935 1.621451613 59.94623656 1.829623656 29.05290323 太原市140100 0.751303226 1.55155914 39.24698925 2.113602151 31.8844086 常州市320400 0.765151613 1.435107527 30.19688172 0.69311828 31.96709677 徐州市320300 0.755609677 1.477150538 38.26166667 1.288817204 29.62478495 惠州市441300 0.744277419 1.552365591 47.93887097 1.660053763 28.59102151 无锡市320200 0.753158065 1.419032258 30.645 1.255806452 33.03451613 昆明市530100 0.745764516 1.540537634 43.90688172 1.972311828 28.21462366 泉州市350500 0.785393548 1.388602151 24.01424731 0.840483871 33.10064516 济南市370100 0.744958065 1.68483871 60.75241935 2.133709677 28.18612903 温州市330300 0.750845161 1.514569892 46.59478495 1.290322581 25.28204301 潍坊市370700 0.778345161 1.538602151 49.19354839 0.705322581 28.54231183 烟台市370600 0.767974194 1.528817204 47.67021505 0.73672043 30.69768817 珠海市440400 0.753825806 1.534086022 42.47311828 1.471774194 34.25344086 石家庄市130100 0.757196774 1.512365591 38.79924731 1.51311828 31.24752688 福州市350100 0.750977419 1.59655914 50.62741935 1.679892473 28.88032258 绍兴市330600 0.760645161 1.492311828 40.2327957 1.067311828 27.47043011 贵阳市520100 0.736306452 1.561021505 43.6377957 3.067634409 31.57268817 金华市330700 0.769812903 1.368602151 16.93553763 0.632473118 29.11575269 长春市220100 0.737064516 1.667473118 65.68096774 2.363655914 27.95241935

代码：

from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
from sklearn.preprocessing import StandardScaler
import pandas as pd

1、数据获取
path = "E:\Desktop\二线城市交通大数据(整理版本).xlsx"
data = pd.read_excel(path)
data = data.iloc[:, 3:]
data.head()
2、特征工程 标准化
transfer = StandardScaler()
data = transfer.fit_transform(data)
3、K-means聚类
estimator = KMeans(n_clusters=3)
estimator.fit(data)
y_predict = estimator.predict(data)
4、K-means 模型评估方法：轮廓系数
silhouette_score(data, y_predict)

输出结果：

0.31123484705638604

学习地址：

Original: https://blog.csdn.net/cai_niao_lu/article/details/121874864
Author: cai_niao_lu
Title: 算法模型之分类模型(无监督学习K-means)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/550468/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python函数：set_index（）

用法： DataFrame.set_index(keys, drop=True, append=False, inplace=False, verify_integrity=Fal…

人工智能 2023年7月7日
0059
Pandas深入浅出

4.Pandas新增数据列文章目录 4.Pandas新增数据列前言一、直接赋值二、df.apply方法三、df.assign方法四、按条件选择分组分别进行赋值总结前…

人工智能 2023年7月7日
0081
TensorFlow1（一）全连接神经网络识别mnist数据集

首先我们来介绍一下mnist数据集 MNIST数据集由Yann LeCun搜集，是一个大型的手写体数字数据库，通常用于训练各种图像处理系统，也被广泛用于机器学习领域的训练和测试。M…

人工智能 2023年5月24日
00132
自动驾驶技术综述1：自动驾驶算法软件架构介绍

前言：自动驾驶技术是一个庞大的工程体系，软件架构、功能算法、控制规划、感知识别、建图定位、电气架构、车载控制器、验证体系等等，有太多的角度可以去切入。对于自动驾驶功能与算法开发，…

人工智能 2023年7月26日
0066
Kernel Regression 核回归详细讲解

Kernel Regression 核回归详细讲解目录 Kernel Regression 核回归详细讲解 * 一、首先介绍一下核函数二、核估计 – 举个例子 …

人工智能 2023年6月13日
00216
5实践报告撰写

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月17日
0055
stata门槛回归

stata门槛回归 * – + * 一、截面门槛 * – 截面门槛检验 – 门槛回归 – 多门槛检验 * 二、面板门槛 * &#82…

人工智能 2023年6月17日
00101
ROS系列——如何把ROS和STM32之间联系起来

ROS系列——如何把ROS和STM32之间联系起来本节内容包括如何实现ros主控和stm32之间的通信，以及ros主控对stm32发送的数据做了哪些处理一. 两种控制器的功能 …

人工智能 2023年6月10日
0078
2022年，尽量还是别裸辞了吧···

你知道什么叫度日如年吗？就是在家待业的每一天。你知道什么叫心焦如焚吗？就是投出100份简历却等不来一个回应。当前就业环境，裁员、失业消息满天飞，好像能有一份工作就不错了，更别…

人工智能 2023年5月30日
0082
【数据挖掘】百度机器学习-数据挖掘-自然语言处理工程师 2023届校招笔试详解

笔试时间；2022年9月13日 1 不定项选择题 1、算法分析之常用符号大O、小o、大Ω符号、大Θ符号、w符号 O: 表示上界，小于等于的意思。渐进上界o：表示上界，小于的意思。表…

人工智能 2023年6月16日
0076
模糊匹配提取地址中的省市

基于表格中的地址提取出相应的省份列、城市列信息。1、目的：以下两个表分别是原始数据和需要提取的省市信息的结果。 2、过程(模糊匹配需要中国各省市对应关系表来辅助)：①分别读取地址表…

人工智能 2023年7月7日
0064
Pandas-Excel读写操作详解

Pandas 提供了操作 Excel 文件的函数，可以很方便地处理 Excel 表格，对表格数据进行读写操作。 read_excel()介绍读取Excel 表格中的数据，可以使用…

人工智能 2023年7月7日
0094
图像处理笔记2-直方图与直方图均衡化histogram equalization

直方图是传统图像处理中常用的工具，用于描述图像的灰度分布情况。它可以显示图像中各个灰度级别的像素数量或像素占比。直方图分析可以提供关于图像对比度、亮度和颜色分布等方面的有用信息。…

人工智能 2023年7月19日
0058
小目标检测相关数据集（附下载链接）

近期，有小伙伴询问数据集的相关问题，小海带在空闲之余收集整理了一些开源的小目标检测相关的数据集供大家参考。 1.AI-TOD航空图像数据集数据集下载地址：http://m6z.c…

人工智能 2023年5月28日
0064
《Python数据分析与应用》第5章使用Pandas进行数据预处理实训部分

《Python数据分析与应用》第5章使用Pandas进行数据预处理实训部分(源于大学课程python数据分析) 实训1合并线损、用电量趋势与线路告警数据 2.查看两表形状3.以I…

人工智能 2023年7月18日
0076
PyTorch backward原理

1，先看运行效果第一部分 x = torch.tensor([2., 1.], requires_grad=True).view(1,2) print(x) y = torch….

人工智能 2023年7月22日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

算法模型之分类模型(无监督学习K-means)

大家都在看