基于产品的RFM模型的k-means聚类分析

2023年6月11日下午6:11 • 人工智能 • 阅读 81

首先我们可以看看数据集的数据形态：

导入rfm数据，查看数据的统计学参数

df =pd.read_csv('rfm.csv')
df.describe()

在实施Kmeans聚类之前，我们必须检查这些关键k-means假设
-变量对称分布(不倾斜)
-具有相同平均值的变量
-方差相同的变量

从这个表中，我们发现了这个问题:均值和方差不相等
解决:使用scikit-learn库中的标量来缩放变量


f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

还有另一个问题:变量的不对称分布(数据倾斜)
解决方案:对数转换(仅为正值)将管理倾斜程度

我们使用这些结构化预处理步骤的顺序
1。取消数据倾斜-log转换的倾斜
2。标准化到相同的平均值
3。比例化到相同的标准偏差
4。存储为单独的数组用于分簇


rfm_log = rfm.apply(np.log, axis = 1).round(3)

f,ax = plt.subplots(figsize=(10, 12))
plt.subplot(3, 1, 1); sns.distplot(rfm_log.Recency, label = 'Recency')
plt.subplot(3, 1, 2); sns.distplot(rfm_log.Frequency, label = 'Frequency')
plt.subplot(3, 1, 3); sns.distplot(rfm_log.MonetaryValue, label = 'Monetary Value')
plt.style.use('fivethirtyeight')
plt.tight_layout()
plt.show()

接下来运用kmeans聚类人群

数据预处理
选择一些集群
对预处理数据运行k-means聚类
分析每个集群的平均RFM值

数据预处理


from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(rfm_log)

rfm_normalized= scaler.transform(rfm_log)

选择合适的簇值

肘部判定方法
绘制群集数量与群集内的平方和误差(SSE) -从每个数据点到其群集中心的平方距离的和
在情节中找出一个”肘部”
肘部——代表”最佳”簇数的点

from sklearn.cluster import KMeans

ks = range(1,8)
inertias=[]
for k in ks :

    kc = KMeans(n_clusters=k,random_state=1)
    kc.fit(rfm_normalized)
    inertias.append(kc.inertia_)

f, ax = plt.subplots(figsize=(15, 8))
plt.plot(ks, inertias, '-o')
plt.xlabel('Number of clusters, k')
plt.ylabel('Inertia')
plt.xticks(ks)
plt.style.use('ggplot')
plt.title('find the best clustering ?')
plt.show()

如图，我们在图中选择一个”肘”，在这里选择斜率开始缓慢下降的点，故选择3作为kmeans的簇


kc = KMeans(n_clusters= 3, random_state=1)
kc.fit(rfm_normalized)

cluster_labels = kc.labels_

rfm_k3 = rfm.assign(K_Cluster = cluster_labels)

rfm_rfm_k3.groupby('K_Cluster').agg({'Recency': 'mean','Frequency': 'mean','MonetaryValue': ['mean', 'count'],}).round(0)

Original: https://blog.csdn.net/foxirensheng/article/details/122704512
Author: 佛系人僧
Title: 基于产品的RFM模型的k-means聚类分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600886/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

自动驾驶算法详解(1) : Apollo路径规划 Piecewise Jerk Path Optimizer的python实现

本文作为 Apollo Planning决策规划代码详细解析系列文章的补充，将使用Python代码以及anaconda环境，来实现Apollo 决策规划Planning 模块里的 …

人工智能 2023年6月15日
00135
DAGM2007数据集格式转换（DAGM转换为COCO格式、COCO格式转换为VOC格式）

因为在做目标检测时需要用到DAGM2007数据集，但是官方提供的数据集格式与现在主流的COCO、VOC格式不同，重新写Dataset类又太过麻烦。因此在这里写了几个代码方便进行数据…

人工智能 2023年7月12日
0069
液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南

液体火箭发动机技术国家级重点实验室2021年度对外开放项目指南人工智能技术与咨询国家级重点实验室简介西安航天动力研究所液体火箭发动机技术国家级重点实验室瞄准面向航天运输系统…

人工智能 2023年6月10日
00112
SpringMVC框架之Controller方法的返回值

其实选错了就选错了，人不可能每一步都正确的，很多事就算能重来一遍，以当时的心智和阅历，还是会做同样的选择，避免不了同样的结果，所以，不用去回头看，也不必批判当时的自己。首先先要完…

人工智能 2023年7月20日
00106
数字传输 | 任意位数的汉明码hamming code编码+产生误差+纠错（原理+python代码实现）

由于网上搜到关于汉明码矩阵计算的资料比较少，基本上都是（7,4）居多，有些还是用class定义的，感觉很不友好。现在就来补充一点资料吧。汉明码基础知识关于汉明码手算基本过程，大…

人工智能 2023年7月7日
0069
tensorflow自定义算子开发1:CPU实例

本文将介绍如果用C++在tensorflow中新建一个算子，参考官方文档通过一个简单的例子来说明。操作系统是Ubuntu，且系统已经安装tensorflow。首先，创建一个名为 …

人工智能 2023年5月23日
00141
当知识图谱遇上预训练语言模型

知识图谱与语言预训练是什么关系呢？本文就将从语言预训练模型开始，介绍知识对语言预训练模型的价值，并介绍几个前沿的知识图谱增强语言预训练模型。 01知识图谱与语言预训练关于&#8…

人工智能 2023年6月1日
00115
超详细的Python matplotlib 绘制直方图赶紧收藏

经过前面对 matplotlib 模块从底层架构、基本绘制步骤等学习，我们已经学习了折线图、柱状图的绘制方法。在分析数据的时候，我们会根据数据的特点来选择对应图表来展示，需要表示…

人工智能 2023年7月14日
0088
pycharm，安装tensorflow2.6.0–以安装在anaconda为例

两种方式安装第一种：在pycharm中安装（自己并未采用此方式，由于最开始并未指定tensorflow版本，导致后面使用时出现了问题，并且在pycharm中无法删除对应包，所以改…

人工智能 2023年5月24日
0099
javaWeb期末作业——蛋糕订购系统

目录标题视频展示 1 实验的目的及要求 2 需求分析 * – + * – 2.1 问题陈述 – 2.2 功能需求分析 3 总体设计 * &#8…

人工智能 2023年7月29日
0086
WenLan 2.0：一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹

WenLan 2.0：一种不依赖Object Detection的大规模图文匹配预训练模型 & 数据+算力=大力出奇迹 FesianXu 20211202 at Baidu…

人工智能 2023年7月12日
00126
人工智能——归结推理

归结推理思考题归结演绎推理谓词公式的范式 * 前束型范式 Skolem范式（斯克林范式）谓词公式 G 化为 Skolem 标准型的步骤子句与子句集 * 谓词公式分别化成子…

人工智能 2023年6月23日
0096
【NLP基础技术】浅谈词法分析之短文本语义相似度

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月2日
0073
【Windows配置三】Python3.6安装rosbag

以下所以命令，均需在激活 anaconda 环境下进行安装 conda activate [your anaconda] conda activate pytorch pip in…

人工智能 2023年6月19日
0065
二、语音合成（TTS）

语音合成使用平台：Microsoft Visual Stduio软件编程 1.添加添加引用：System.Speech Dll库 ; 2. 添加命名空间 System.Speec…

人工智能 2023年5月25日
0075
卷积神经网络（CNN）——快速导读

一、认识卷积神经网络输入层：代表要素结点输入每个像素 [En] input layer: input each pixel on behalf of a feature node…

人工智能 2023年5月24日
00102

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于产品的RFM模型的k-means聚类分析

大家都在看