基于K-means聚类算法进行客户人群分析

2023年10月11日下午12:56 • Python • 阅读 31

摘要：在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。

实验目标

案例内容介绍

在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。

我们使用的数据集是超市用户会员卡的基本数据以及根据购物行为得出的消费指数，总共有5个字段，解释如下：

CustomerID：客户ID
Gender：性别
Age：年龄
Annual Income (k$)：年收入
Spending Score (1-100)：消费指数

注意事项

实验步骤

这步准备案例所需的源代码和数据，相关资源已经保存在OBS中，我们通过ModelArts SDK将资源下载到本地，并解压到当前目录下。解压后，当前目录包含data和src两个目录，分别存有数据集和源代码。

matplotlib和seaborn是Python绘图工具，pandas和numpy是矩阵运算工具。

此段代码只是引入Python包，无回显（代码执行输出）。

使用pandas.read_excel(filepath)方法读取notebook中的数据文件。

filepath：数据文件路径

执行这段代码可以看到数据集的5个样本数据

执行这段代码可以看到数据集的维度

调用pandas.DataFrame.describe方法，可以看到各个特征的统计信息，包括样本数、均值、标准差、最小值、1/4分位数、1/2分位数、3/4分位数和最大值。

pandas.DataFrame.dtypes()方法可以展示各个字段的类型信息。

可以看到每个字段的类型信息。

查看是否有数据缺失，如果有，则需要填补。

实验中使用的这份数据很完善，没有任何一个属性的值为null，因此统计下来，null值的数量都是0

这段代码使用matplotlib绘制了数据中三个主要属性的统计直方图，包含年龄、收入、消费指数。

可以看到三张统计直方图，形状都与正态分布类似，说明数据量足够，数据抽样的分布也比较理想。

这段代码使用matplotlib绘制条状图，展示男、女样本数量的分布。

可以看到一张条状图。

展示任意两个属性之间的统计关系图。

此段代码执行后，会有9张统计图，展示了任意两个属性之间的统计关系。

此段代码执行后，会有1张统计图，以性别为参照，展示了年龄和收入之间的对应统计关系

此段代码执行后，会有1张统计图，以性别为参照，展示了收入和消费指数之间的对应统计关系

观察不同性别的客户的数据，在年龄、年收入、消费指数上的分布。

此段代码执行后，会有六幅boxplot图像。

根据年龄和消费指数进行聚类和区分客户。

我们使用1-10个聚类中心进行聚类。（此段代码无输出）

观察10次聚类的inertias，并以如下折线图进行统计。

inertias是K-Means模型对象的属性，它作为没有真实分类结果标签下的非监督式评估指标。表示样本到最近的聚类中心的距离总和。值越小越好，越小表示样本在类间的分布越集中。

可以看到，当聚类中心大于等于4之后，inertias的变化幅度显著缩小了。

我们使用4个聚类中心再次进行聚类。（此段代码无输出）

我们把4个聚类中心的聚类结果，以下图进行展示。横坐标是年龄，纵坐标是消费指数，4个红点为4个聚类中心，4块不同颜色区域就是4个不同的用户群体。

根据年收入和消费指数进行聚类和区分客户。

我们使用1-10个聚类中心进行聚类。（此段代码无输出）

观察10次聚类的inertias，并以如下折线图进行统计。

可以看到，当聚类中心大于等于5之后，inertias的变化幅度显著缩小了。

我们使用5个聚类中心再次进行聚类。（此段代码无输出）

我们把5个聚类中心的聚类结果，以下图进行展示。横坐标是年收入，纵坐标是消费指数，5个红点为5个聚类中心，5块不同颜色区域就是5个不同的用户群体。

至此，本案例完成。

Original: https://www.cnblogs.com/huaweiyun/p/17002696.html
Author: 华为云开发者联盟
Title: 基于K-means聚类算法进行客户人群分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/796135/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python性能提升之字符串拼接、字节流拼接

在 Python_中，字符串转 _字节流_有多种方法。其中，可以使用encode()方法将字符串转换为 _字节流。例如，可以使用以下代码将字符串转换为字节流： _python_ …

Python 2023年8月27日
0070
Python容器数据类型（列表、元组）

使用 + 可以将多个列表或者是元组结合成为一个 lst = [1, 2, 3] lst1 = [‘one’, ‘two’, ‘three’] res =lst + lst1 pri…

Python 2023年5月24日
0084
python画兔子代码_少儿编程分享：手把手教你用Python编写兔獾大作战(五)

又完成一个小游戏啦~ 显示健康值和时间现在游戏进行得很不错了！我们现在需要不断记录分数，看看小兔子的防守做得怎么样。我们可以在屏幕左上角加一个”血槽”来…

Python 2023年9月23日
0052
Python学习之numpy生成矩阵基础用法

1、numpy.array() 可以把列表转换为矩阵 numpy.array(object, dtype=None, *, copy=True, order=’K&#8…

Python 2023年8月2日
0030
python带你采集西瓜无水印美女舞蹈视频数据~

Original: https://www.cnblogs.com/Qqun261823976/p/16700068.htmlAuthor: python倩Title: pytho…

Python 2023年10月31日
0054
〖Python接口自动化测试实战篇①〗- 自动化测试基础扫盲及项目的生命周期详述

### 回答1： Python Web 自动化测试实战篇_是一本介绍如何使用 _Python_语言进行Web _自动化测试_的实用指南。本书从 _基础_概念入手，详细讲解了Web…

Python 2023年8月2日
0036
Pandas学习笔记

本文是通过阅读此处网址的内容以及自己查询而得的Pandas学习笔记。一.简要介绍 Pandas是基于Numpy开发出来的，它是python的核心数据分析支持库，主要的数据结构是S…

Python 2023年8月8日
0052
python dataframe纵向合并_Python Dataframe合并问题

用Pandas读取一个七百万条记录的微博爬虫文件，大小约1G。直接读入内存不足，于是采用chunksize=100000来分批读取。每个chunk的数据处理后得到count长这样：…

Python 2023年8月21日
0043
【Git】一文带你入门Git分布式版本控制系统（简介，安装，Linux命令）

个人简介 👀 个人主页：前端杂货铺🙋‍♂️ 学习方向：主攻前端方向，也会涉及到服务端📃 个人状态：在校大学生一枚，已拿多个前端 offer（秋招）🚀 未来打算：为中国的工业软…

Python 2023年9月16日
0051
激活码

https://www.ajihuo.com/ 不论你在什么时候开始，重要的是开始之后就不要停止。不论你在什么时候结束，重要的是结束之后就不要悔恨。 Original: http…

Python 2023年6月6日
0072
Go 源码解读｜如何用好 errors 库的 errors.Is() 与 errors.As() 方法

快一个月没有更新技术文章了，这段时间投注了较多的时间学习字节的开源项目 Kitex/Hertz ，并维护一些简单的 issue ，有兴趣的同学也可以去了解：这段时间迟迟没有更新文…

Python 2023年10月20日
0037
CSS实现从下至上弹出的抽屉动画

从下至上展开抽屉动画 DOCTYPE html> <html> <head> <meta charset="UTF-8"&g…

Python 2023年11月5日
0031
淘宝用户行为分析

数据来源：数据集-阿里云天池一、项目背景本数据报告以淘宝app平台为数据集随机选取了大约 100 万用户在 2014 年 11 月 18 日至 12 月 18 日期间具有曝光、…

Python 2023年9月1日
0046
python—数据分析(二)

Series和DataFrame中数据的基本功能： reindex方法是创建一个新对象，其数据对Series和DataFrame的新索引，它们的主要区别在DataFrame可以对i…

Python 2023年8月19日
0050
Java的Math.Random()方法

Java的Math.Random()方法 Math 数学工具类，提供了关于数学操作的一些方法和属性Math类： 全部&#x662…

Python 2023年11月5日
0042
pandas rolling方法_如何使用多列参数调用pandas.rolling.apply？

Python 2023年8月18日
0037

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于K-means聚类算法进行客户人群分析

实验目标

案例内容介绍

注意事项

实验步骤

大家都在看