项目实战–用户消费数据分析

2023年6月11日下午2:41 • 人工智能 • 阅读 94

文章目录

引入包
一、数据预处理
二、按月对数据分析
三、用户个体消费数据分析
四、用户消费行为分析
五、用户的生命周期

引入包

本项目所用数据为【密码：pfj6】:CDNOW_master.txt

import numpy as np
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False

一、数据预处理

本阶段需求
读取数据集

df = pd.read_csv('./CDNOW_master.txt')
df.head()

消除列的索引，使用指定索引


df = pd.read_csv('./CDNOW_master.txt',header=None,sep='\s+',names=['user_id','order_dt','order_product','order_amount'])
df.head()

查看数据类型

df.info()

将order_dt转换成时间序列

df['order_dt'] = pd.to_datetime(df['order_dt'],format='%Y%m%d')
df.info()

查看数据的统计描述

df.describe()

在源数据中添加一列表示月份：astype(datetime64[‘M’])

df['month'] = df['order_dt'].astype('datetime64[M]')
df.head()

astype的用法：np.astype()

Python中与数据类型相关函数及属性有如下三个： type/dtype/astype

type() 返回参数的数据类型
dtype 返回数组中元素的数据类型
astype() 对数据类型进行 *转换

二、按月对数据分析

用户每月花费的总金额

df.groupby(by='month')['order_amount'].sum()

绘制曲线图

df.groupby(by='month')['order_amount'].sum().plot()

对上图进行细化

plt.figure(figsize=(8,5))
plt.plot(df.groupby(by='month')['order_amount'].sum())
plt.xlabel('order_dt')
plt.ylabel('sum of amount')
plt.title('用户每月花费的总金额')
plt.legend()

所有用户每月的产品购买数量

df.groupby(by='month')['order_product'].sum()

df.groupby(by='month')['order_product'].sum().plot()

所有用户每月消费的总次数

df.groupby(by='month')['user_id'].count()

统计每月消费的人数【有人会在同一天消费多次】

unique():去重
nunique():去重并统计个数

df.groupby(by='month')['user_id'].nunique()

三、用户个体消费数据分析

所有用户消费总金额和消费总购买量的统计描述

df['order_product'].sum()

167881

df['order_amount'].sum()

2500315.6300000004

各个用户消费金额和香消费产品数量的散点图

user_amount = df.groupby(by='user_id')['order_amount'].sum()
user_product = df.groupby(by='user_id')['order_product'].sum()

plt.figure(figsize=(8,8))
plt.scatter(user_product,user_amount)
plt.xlabel('product')
plt.ylabel('amount')

各个用户消费总金额的分布直方图（amount在 1000之内）

df.groupby(by='user_id').sum()

df.groupby(by='user_id').sum().query('order_amount )

query的使用方法

order_amount_1000 = df.groupby(by='user_id').sum().query('order_amount )['order_amount']
order_amount_1000

绘出直方图

plt.hist(order_amount_1000,bins=50)

上述结果大部分的消费在（0. , 19.9938）之间，有6.079e+03个人

各个用户消费的总数量的分布直方图（消费商品的数量在 100次之内的分布）

user_product_100 = df.groupby(by='user_id').sum().query('order_product )['order_product']
plt.hist(user_product_100,bins=30)

四、用户消费行为分析

用户第一次消费的月份分布，和人数统计

如何判定用户第一次消费的月份？

用户消费的最小值就是用户首次消费的月份


df.groupby(by='user_id')['month'].min()

人数统计

df.groupby(by='user_id')['month'].min().value_counts()

df.groupby(by='user_id')['month'].min().value_counts().plot()

用户最后一次消费的时间分布和认数统计

df.groupby(by='user_id')['month'].max().value_counts()

df.groupby(by='user_id')['month'].max().value_counts().plot()

新老客户的占比

消费一次为新用户
消费多次为老用户
判定用户消费的次数(1次还是多次)
*
求出用户第一次和最后一次消费的时间，若时间相同，则表示用户只消费了一次，否则表示消费多次


first_last_order_dt = df.groupby(by='user_id')['order_dt'].agg(['min','max'])
first_last_order_dt.head()

agg函数的使用：

(first_last_order_dt['min'] == first_last_order_dt['max']).value_counts()

True 12054
False 11516
dtype: int64

求出每个用户的总购买量和总消费金额and最后一次消费的时间的表格rfm

rfm = df.groupby(by='user_id').sum()
rfm.head()


user_recently_order_dt = df.groupby(by='user_id')['order_dt'].max()
rfm['R']=user_recently_order_dt
rfm.head()

R表示客户最近一次交易的时间间隔
*
/np.timedelta64(1,’D’):去除days
F表示客户购买的商品数量 F越大，表示客户交易越频繁，反之表示客户交易不够活跃
M表示客户交易的金额 M越大，表示客户价值越高，反之价值越低
将R，F, M,作用到rfm中

rfm.columns = ['F','M','R']
rfm


rfm['R'] = df['order_dt'].max() - rfm['R']
rfm


rfm['R'] = rfm['R'] / np.timedelta64(1,'D')
rfm.head()

划分客户类型⭐⭐


def rfm_func(x):

    level = x.map(lambda x:'1' if x >= 0 else '0')
    label = level['R'] + level.F + level.M
    d = {
        '111':'重要价值客户',
        '011':'重要保持客户',
        '101':'重要挽留客户',
        '001':'重要发展客户',
        '110':'一般价值客户',
        '010':'一般保持客户',
        '100':'一般挽留客户',
        '000':'一般发展客户',
    }
    result = d[label]

    return result

rfm['label'] = rfm.apply(lambda x:x-x.mean(),axis=0).apply(rfm_func,axis=1)
rfm.head()

五、用户的生命周期

统计每个用户每个月的消费次数


df.pivot_table(index='user_id',values='order_dt',aggfunc='count').head()

df.pivot_table(index='user_id',values='order_dt',aggfunc='count',columns='month')

user_month_order_count = df.pivot_table(index='user_id',values='order_dt',aggfunc='count',columns='month',fill_value=0)
user_month_order_count.head()

统计出每个用户每个月是否消费，消费记录为1 否则为0

applymap()函数用于对DataFrame中的每一个元素执行相同的函数操作
apply()函数主要用于对DataFrame中的某一column或row中的元素执行相同的函数操作。

df_purchase = user_month_order_count.applymap(lambda  x:1 if x>=1 else 0)
df_purchase.head()

对每月得用户活跃成分进行用户划分⭐⭐⭐


def  active_status(data):
    status = []

    for i in range(18):

        if data[i] == 0:
            if len(status) > 0:
                if status[i-1] == 'unreg':
                    status.append('unreg')
                else:
                    status.append('unactive')
            else:
                status.append('unreg')

        else:
            if len(status) == 0:
                status.append('new')
            else:
                if status[i-1] == 'active':
                    status.append('return')
                elif status[i-1] == 'unreg':
                    status.append('new')
                else:
                    status.append('active')
    return status

pivoted_status = df_purchase.apply(active_status,axis=1)
pivoted_status.head()

需要将上述返回的Series封装到DataFrame中⭐⭐

pivoted_status.values

pivoted_status.values.tolist()

df_purchase_new = DataFrame(data=pivoted_status.values.tolist(),index=df_purchase.index,columns=df_purchase.columns)
df_purchase_new.head()

每月【不同活跃】用户的计数⭐

purchase_status_ct = df_purchase_new_apply(lambda:pd.value_counts(x)).fillna(0)
转置进行最终结果的查看

df_purchase_new.apply(lambda x:pd.value_counts(x))

将NaN用0填充

df_purchase_new.apply(lambda x:pd.value_counts(x)).fillna(0)

翻转

df_purchase_new.apply(lambda x:pd.value_counts(x)).fillna(0).T

Original: https://blog.csdn.net/HG0724/article/details/121070931
Author: 胜天半月子
Title: 项目实战–用户消费数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/600297/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

dataframe转化（二）之 apply(),transform(),agg() 的用法和区别

用法介绍 transform用法 pandas.Series.transform Call func on self producing a Series with transfo…

人工智能 2023年6月2日
0086
在Windows下正确地编译最新的pytorch和tensorflow

目录 0 前言 1 Basic Configure * 1.1 Main Build environment 1.2 Main Tools 1.3 Configure 2. Bui…

人工智能 2023年5月26日
0089
图像的小波变换处理（一）

目录 1 、小波变换的基本概念 2、连续小波变换 1 、小波变换的基本概念信号分析：获得时间和频率之间的相互关系。傅立叶变换：提供频率域的信息，但有关时间的局部化信息却基本丢失…

人工智能 2023年7月26日
0061
yolov5 训练结果解析

yolov5 训练结果解析本文仅用于记录之前在CSDN中所学有关YOLOv5结果解析所转载知识的记录和总结笔记用。在每次训练之后，都会在runs-train 文件夹下出现一下文…

人工智能 2023年7月3日
0099
运动控制器如何设置轴映射？

一、坐标映射原理运动控制器是通过坐标映射将控制轴由单轴运动控制模式转换为坐标系运动控制模式。在坐标系运动控制模式下，可以实现单段轨迹运动、多段轨迹连续运动。运动控制器开辟了底层运…

人工智能 2023年6月4日
00122
皮尔逊相关分析的MATLAB实现，corr()，corrcoef()函数使用

皮尔逊相关系数可以用来表述两个序列的相关性。常常用来做数据分析、数据挖掘等工作。如何简单快捷的实现皮尔逊相关，并得到结果？需要应用MATLAB中的 corr(X, Y)或者 c…

人工智能 2023年6月16日
0096
【空气质量数据分析专题二】数据获取及预处理

数据获取空气质量数据来源于空气质量监测系统，各地区均有官方的该系统可以获取数据。数据说明日级别数据表头如下图所示，包含站点信息、空气质量六项污染物浓度及分指数（IAQI）、空…

人工智能 2023年7月15日
0053
【论文-目标追踪】BoT-SORT: Robust Associations Multi-Pedestrian Tracking

基本信息 BoT-SORT: Robust Associations Multi-Pedestrian Tracking paper code(论文基于YOLOX、代码还增加了YO…

人工智能 2023年7月28日
0077
OpenCV提取十字标中心点的几种思路

1. 取边界拟合四线交点取中这个是个人感觉自由度最大的，应该也是可以达到的精度上限最高的，也支持图像的旋转，如果筛选直线的方法得当对于线的相交角度也没特殊要求，但是手动计算量也较…

人工智能 2023年6月25日
0079
OpenCV-Python实战（13）——OpenCV与机器学习的碰撞

OpenCV-Python实战（13）——OpenCV与机器学习的碰撞 * – 0. 前言 – 1. 机器学习简介 – + 1.1 监督学习 +…

人工智能 2023年7月18日
0056
演化博弈及Python实现

目录一、写在前面二、演化博弈三、模型构建 3.1博弈收益矩阵 3.2综合期望 3.3复制动态方程 3.4可能的均衡点 3.5局部稳定分析法四、理论分析 4.1演化相位图 4…

人工智能 2023年7月4日
0077
【树莓派4B深度学习垃圾分类】Chap.2 VGG16 & AlexNet 垃圾数据集图像分类，附带做好的project链接【深度学习招式篇】

【深度学习招式篇 – 树莓派4B实现垃圾分类】Chap.2 VGG16 & AlexNet 图像分类 * – 1.把代码还有图片数据集集，用U盘拷…

人工智能 2023年5月26日
0055
《30天吃掉那只 TensorFlow2.0》 3-2 中阶API示范

3-2 中阶API示范文章目录 * – 3-2 中阶API示范 – + 一，线性回归模型 + * 1，准备数据 * 2，定义模型 * 3，训练模型 + 二…

人工智能 2023年5月23日
0078
层次聚类python实现

层次聚类算法顾名思义，层次聚类就是一层一层的进行聚类，可以由上向下把大的类别（cluster）分割，叫作分裂法；也可以由下向上对小的类别进行聚合，叫作凝聚法；但是一般用的比较多的…

人工智能 2023年5月31日
00105
FPN以及其他结构FPN——Bi-FPN重点（仅供自己学习使用）

FPNFPN特征金字塔结构。由于目标检测中对小物体检测很困难，因为卷积过程中，大物体的像素点多，小物体的像素点少，随着卷积的深入，大物体的特征容易被保留，小物体的特征越往后越容易被…

人工智能 2023年5月26日
0081
CVPR 2022 | 最全25+主题方向、最新50篇GAN论文汇总

在最新的视觉顶会CVPR2022会议中，涌现出了大量基于生成对抗网络GAN的论文，广泛应用于各类视觉任务；下述论文已分类打包好！后台回复 CVPR2022（长按红字、选中复制）获…

人工智能 2023年7月27日
0049

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

项目实战–用户消费数据分析

文章目录

大家都在看