无监督学习-K-means算法

2023年10月29日下午4:10 • Python • 阅读 35

无监督学习-K-means算法

1、什么是无监督学习

一家广告平台需要根据相似的人口学特征和购买习惯将美国人口分成不同的小组，以便广告客户可以通过有关联的广告接触到他们的目标客户。
Airbnb 需要将自己的房屋清单分组成不同的社区，以便用户能更轻松地查阅这些清单。
一个数据科学团队需要降低一个大型数据集的维度的数量，以便简化建模和降低文件大小。

我们可以怎样最有用地对其进行归纳和分组？我们可以怎样以一种压缩格式有效地表征数据？ 这都是无监督学习的目标，之所以称之为无监督，是因为这是从无标签的数据开始学习的。

2、无监督学习包含算法

聚类
K-means(K均值聚类)
降维
PCA

3、 K-means原理

我们先来看一下一个K-means的聚类效果图

3.1 K-means聚类步骤

1、随机设置K个特征空间内的点作为初始的聚类中心
2、对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别
3、接着对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）
4、如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程

4、K-meansAPI

sklearn.cluster.KMeans(n_clusters=8,init=’k-means++’)
k-means聚类
n_clusters:开始的聚类中心数量 比如 n_clusters=4
init:初始化方法，默认为’k-means ++’
labels_:默认标记的类型，可以和真实值比较（不是值比较）

5、案例：k-means对Instacart Market用户聚类

5.1 分析

1、降维之后的数据
2、k-means聚类
3、聚类结果显示

5.2 代码

取500个用户进行测试
如果b_i>>a_i:趋近于1效果越好， b_i<

返回结果：
0.466014214896049

问题：如何去评估聚类的效果呢？

6、Kmeans性能评估指标

6.1 轮廓系数

注：对于每个点i 为已聚类数据中的样本，b_i 为i 到其它族群的所有样本的距离最小值，a_i 为i 到本身簇的距离平均值。最终计算出所有的样本点的轮廓系数平均值

6.2 轮廓系数值分析

分析过程（我们以一个蓝1点为例）
1、计算出蓝1离本身族群所有点的距离的平均值a_i
2、蓝1到其它两个族群的距离计算出平均值红平均，绿平均，取最小的那个距离作为b_i
根据公式：极端值考虑：如果b_i >>a_i: 那么公式结果趋近于1；如果a_i>>>b_i: 那么公式结果趋近于-1

6.3 结论

如果b_i>>a_i:趋近于1效果越好， b_i<

6.4 轮廓系数API

sklearn.metrics.silhouette_score(X, labels)
计算所有样本的平均轮廓系数
X：特征值
labels：被聚类标记的目标值

6.5 用户聚类结果评估

silhouette_score(cust, pre)

7、K-means总结

特点分析：采用迭代式算法，直观易懂并且非常实用
缺点：容易收敛到局部最优解(多次聚类)

注意：聚类一般做在分类之前

案例：

import pandas as pd
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA

1、获取数据集
·商品信息- products.csv：
Fields：product_id, product_name, aisle_id, department_id
·订单与商品信息- order_products__prior.csv：
Fields：order_id, product_id, add_to_cart_order, reordered
·用户的订单信息- orders.csv：
Fields：order_id, user_id,eval_set, order_number,order_dow, order_hour_of_day, days_since_prior_order
·商品所属具体物品类别- aisles.csv：
Fields：aisle_id, aisle
from sklearn.metrics import silhouette_score

products = pd.read_csv("../instacart/products.csv")
order_products = pd.read_csv("../instacart/order_products__prior.csv")
orders = pd.read_csv("../instacart/orders.csv")
aisles = pd.read_csv("../instacart/aisles.csv")

2、合并表，将user_id和aisle放在一张表上
1）合并orders和order_products on=order_id tab1:order_id, product_id, user_id
tab1 = pd.merge(orders, order_products, on=["order_id", "order_id"])
2）合并tab1和products on=product_id tab2:aisle_id
tab2 = pd.merge(tab1, products, on=["product_id", "product_id"])
3）合并tab2和aisles on=aisle_id tab3:user_id, aisle
tab3 = pd.merge(tab2, aisles, on=["aisle_id", "aisle_id"])

3、交叉表处理，把user_id和aisle进行分组
table = pd.crosstab(tab3["user_id"], tab3["aisle"])

4、主成分分析的方法进行降维
1）实例化一个转换器类PCA
transfer = PCA(n_components=0.95)
2）fit_transform
data = transfer.fit_transform(table)

print(data.shape)

取500个用户进行测试
如果b_i>>a_i:趋近于1效果越好， b_i<

返回结果：

(206209, 44)
0.466014214896049

几个问题：

1、线性回归的参数求解的方法是什么?

答案: 正规方程和梯度下降

2、什么是过拟合? 原因有哪些?

答案: 过拟合就是训练误差很小,但是测试误差很大

原因有: 样本偏差, 模型过于复杂

3、分类问题, 回归问题, 聚类问题的评估方法分别是什么?

答案: 分类问题的评估方法是准确率, 精确率和召回率

回归问题的评估方法是均方差

聚类问题的评估方法是轮廓系数

Original: https://www.cnblogs.com/rainbow-1/p/16101428.html
Author: 靠谱杨
Title: 无监督学习-K-means算法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/807658/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

教你用300行Python代码实现一个人脸识别系统

用300行Python代码实现一个人脸识别系统最近又多了不少朋友关注，先在这里谢谢大家。关注我的朋友大多数都是大学生，而且我简单看了一下，低年级的大学生居多，大多数都是为了完成课…

Python 2023年7月31日
0057
matplotlib 笔记：hist（直方图）

1 函数介绍 matplotlib.pyplot.hist( x, bins=None, range=None, density=None, bottom=None, histty…

Python 2023年9月4日
0075
面试官：你说一说MySQL查询慢应该怎么办？

偶尔慢：上述所说的偶尔慢情况都是与MySQL系统刷新脏页有关。而刷新脏页与 IOPS有关， IOPS，具体可以看我这篇文章点击查看。 Original: https://blo…

Python 2023年9月26日
0058
python绘图之turtle库的相关使用

turtle库的介绍 turtle库的使用 turtle库中相关的函数窗体 setup()函数 screensize()函数坐标 goto()函数 position()函数 h…

Python 2023年11月1日
0061
原生Redis跨数据中心双向同步优化实践

一、背景公司基于业务发展以及战略部署，需要实现在多个数据中心单元化部署，一方面可以实现多数据中心容灾，另外可以提升用户请求访问速度。需要保证多数据中心容灾或者实现用户就近访问的话…

Python 2023年10月20日
0042
机器学习实战-Logistic回归

1.基于 Logistic 回归和 Sigmoid 函数的分类逻辑回归适合于01情况的分类就是描述一个问题是或者不是，所以就引入sigmoid函数，因为这个函数可以将所有值变成0…

Python 2023年10月19日
0046
Python数据库sqlite3详解

提到数据库，大家第一时间想到的可能是 sql 数据库，这种数据库非常好用，但是对于新手就不是很容易上手，需要熟悉一段时间才可以大概掌握。这种数据库在大型的项目开发过程中用到…

Python 2023年8月1日
0046
‘chromedriver‘ executable needs to be in PATH when crontab run scrapy selenium on Mac Terminal

‘chromedriver’ executable needs to be in PATH when run scrapy selenium on Term…

Python 2023年10月6日
0036
决策树代码实现(python+numpy)

决策树代码实现(python+numpy 附：西瓜书和机器学习实战资源) 前言 github：https://github.com/swagger-coder/DecisionTr…

Python 2023年8月24日
0072
python爬虫之BeautifulSoup4使用

钢铁知识库，一个学习python爬虫、数据分析的知识库。人生苦短，快用python。上一章我们讲解针对结构化的 html、 xml数据，使用 Xpath实现网页内容爬取。本章我们…

Python 2023年5月23日
0062
自定义ava数据集及训练与测试完整版时空动作/行为视频数据集制作 yolov5, deep sort, VIA MMAction, SlowFast

前言这一篇博客应该是我花时间最多的一次了，从2022年1月底至2022年4月底。我已经将这篇博客的内容写为论文,上传至arxiv：https://arxiv.org/pdf/2…

Python 2023年10月9日
0059
python pip安装第三方包速度慢，这篇博客给你安排清楚了

⛳️ 实战场景作为 Python 的初学者，经常要用到第三方模块的安排，常规情况下，直接使用下述命令，然后就等待去了。 pip install 模块包名但是上述命令默认访问的是…

Python 2023年9月8日
0069
pandas python groupby_Python学习笔记——pandas库中groupby的相关操作

近日学习pandas时，对于其中的groupby()函数以及相关的一些操作查了一些资料，现总结一下以供后面翻阅我觉得这个里面比较重要的还是对组对象的遍历，以及 get_gro…

Python 2023年8月22日
0047
pandas中聚合函数agg的用法

SQL中求字段的最大值、中位数、计数等，经常会用到如下形式的查询语句： select colE, max(colA) as A1, min(colA) as A2, median(…

Python 2023年8月18日
0059
强化学习—— 经验回放（Experience Replay）

强化学习—— 经验回放（Experience Replay） 1、DQN的缺点 * 1.1 DQN 1.2 DQN的不足 – 1.2.1 经验浪费 1.2.2 相关更新…

Python 2023年10月9日
0037
【C++】从零开始的CS:GO逆向分析2——配置GLFW+IMGUI环境并创建透明窗口

选择全部重新生成，然后选择安装->glfw 在下面的生成信息可以看到需要的文件生成的位置打开后，将include、lib文件夹复制到自己的工程文件夹加入后配置自己的工程…

Python 2023年10月20日
00144

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

无监督学习-K-means算法

1、 什么是无监督学习

2、 无监督学习包含算法

3、 K-means原理

3.1 K-means聚类步骤

4、K-meansAPI

5、 案例：k-means对Instacart Market用户聚类

5.1 分析

5.2 代码

问题：如何去评估聚类的效果呢？

6、Kmeans性能评估指标

6.1 轮廓系数

6.2 轮廓系数值分析

6.3 结论

6.4 轮廓系数API

6.5 用户聚类结果评估

7、K-means总结

案例：

几个问题：

1、线性回归的参数求解的方法是什么?

2、什么是过拟合? 原因有哪些?

3、分类问题, 回归问题, 聚类问题的评估方法分别是什么?

大家都在看

1、什么是无监督学习

2、无监督学习包含算法

5、案例：k-means对Instacart Market用户聚类