电商数据分析项目总结！

2023年7月8日下午9:05 • 人工智能 • 阅读 75

↑↑↑关注后”星标”Datawhale

每日干货 & 每月组队学习，不错过

Datawhale干货

作者：牧小熊，华中农业大学，Datawhale原创作者

订单数据作为电商数据分析中的基础分析项目，本项目就京东的订单数据进行分析。通过数据分析和可视化深挖数据产生的原因，掌握基础的数据分析能力。

1.关于本项目

1.1数据来源

本次数据来源于京东2020年5月25日大家电-冰箱的订单数据按照10%的随机抽样后进行数据脱敏最后得到的订单数据，共有订单数据大约70K，数据来源于公开网络数据。

公众号（Datawhale）后台回复 “202013” 获取打包的项目源码和数据

1.2数据所包含信息

订单中的属性将其分成了3类，分别是用户属性、订单属性以及商品属性

2.数据预处理

本项目使用python对数据进行处理使用plotly进行数据可视化

import pandas as pd
import numpy as np
import plotly_express as px
import plotly.offline as of
import plotly as py
import plotly.graph_objs as go

读取提供的数据

df=pd.read_csv('data.csv',sep='\t', encoding="utf-8", dtype=str)

查看数据的缺失值

df.isnull().sum().sort_values(ascending=False)

user_site_city_id 38190
user_site_province_id 38033
check_account_tm 23271

通过观察发现，这3个数据有部分缺失值，其中user_site_city_id 用户所在城市编号，user_site_province_id 用户所在省份的编号，check_account_tm支付时间

这部分数据的缺失是因为用户填写个人资料时跳过的部分，当然这不影响我们整个数据的分析

我们首先是将数据的类型进行转换同时处理缺失值和异常值

值得注意的是，通过观察我们发现冰箱最低的价格是288元，但是数据中发现了很多低于288元的订单数据，我们认为这部分数据不能真实代表冰箱实际的订单数据，可能出现了补差价或者补运费的情况，因此这样的数据我们都过滤掉。
因为订单的编号具有唯一性，因此对于订单编号的重复数据，我们认为出现了重复订单
对于缺失的省份值和缺失的数据，我们将空白地方进行填充
通过观察，我们发现数据的列有重复，对于删除重复的列，这里提供一个比较有意思的做法，将数据反转后，删除重复的行再反转回来。
实际支付的价格=商品数量*优惠后的单价

#删除优惠前价格小于288元的
df = df[df['before_prefr_unit_price' ]>= 288]
#订单编号具有唯一性，因此需要删除重复的数据
df.drop_duplicates(subset=['sale_ord_id'],keep='first',inplace=True)
#填充城市和省份的缺失数据
df.user_site_city_id=df.user_site_city_id.fillna(-1)
df.user_site_province_id =df.user_site_province_id.fillna(-1)
#删除重复的列check_account_tm 转置列 删除 再转置
df=df.T.drop_duplicates().T
#实际支付的价格=商品数量*优惠后单价
df['total_actual_pay'] = df['sale_qtty'] * df['after_prefr_unit_price']

到这里我们就完成了数据的预处理部分

3.订单分析

3.1订单取消比例分析

通过数据观察，有的订单出现了取消，因此我们通过饼图查看取消和未取消的比例

order_cancel = df[df.cancel_flag==1]['sale_ord_id'].count()
order_success=df[df.cancel_flag==0]['sale_ord_id'].count()
labels = ['取消','未取消']
values = [order_cancel, order_success]
trace = [go.Pie(labels=labels, values=values)]
layout = go.Layout(
    title = dict(text='订单比例图',x=0.5)
)
fig = go.Figure(data = trace, layout = layout)
fig

通过饼状图我们看到，大约有28.9%的订单取消了，取消的比例可能是地址填写错了、没有领到优惠劵等情况，使取消支付的比例占有一部分的比例

3.2订单支付比例分析

通过观察数据我们发现了用户有提交了订单，但是没有支付的情况

#找到所有的有效订单
df2 = df[(df['sale_ord_valid_flag'] == 1)&(df['cancel_flag'] == 0)&('before_prefr_unit_price' != 0)]
order_payed = df2['sale_ord_id'][df2['user_actual_pay_amount'] != 0].count()
order_unpay = df2['sale_ord_id'][df2['user_actual_pay_amount'] == 0].count()
labels = ['支付','未支付']
values = [order_payed, order_unpay]
trace = [go.Pie(labels=labels, values=values)]
layout = go.Layout(
    title = dict(text='支付比例图',x=0.5)
)
fig = go.Figure(data = trace, layout = layout)
fig

通过饼状图我们可以看到，大约有15%的用户取消了支付，取消支付的比例小于取消订单的比例，因此对于有订单信息的用户但是未支付的，有比较强的购买目的，可能是由于优惠劵或者价格等因素使其取消支付，因此针对这部分用户可能是价格比较敏感的用户，我们可以推送京东优惠卡。

3.3订单价格分布

price_series = df2['after_prefr_unit_price']
price_series_num = price_series.count()
hist, bin_edges = np.histogram(price_series, bins=80)
hist_sum = np.cumsum(hist)
hist_per = hist_sum / price_series_num
bin_edges_plot = np.delete(bin_edges, 0)
trace = go.Scatter(
    x = bin_edges_plot,
    y = hist_per*100,
    mode = 'lines', # 折线图
    line = dict(
        width = 2
    ) )
layout = go.Layout(
    title = dict(text='订单的价格分布',x=0.5),
    xaxis=dict(title='订单价格'),
    yaxis=dict(title='百分比(%)',ticksuffix='%')

)
fig = go.Figure(data=trace,layout=layout)
fig

通过分布图可以看到，超过80%冰箱的价格是低于4K的，查过70%的冰箱价格是低于2K的，因此冰箱用户主力消费价格在2K以下，因此在进行冰箱广告推广时，可以优先考虑价格低于2K的冰箱，这类冰箱具有较大的市场。

同时通过观察，冰箱价格在4K以内分布较为均匀，超过4K以后，冰箱累计上升区间缓慢，因此我们可以大致认为，当冰箱的价格超过4K，这部分冰箱价格我们可以认为是偏豪华型的冰箱，具有单个冰箱利润高，但是销售市场占比少。

3.4有效订单与时间的关系

df3 = df2.copy()
df3['order_time_hms'] = df3['sale_ord_tm'].apply(lambda x: x.strftime('%H'))
pay_time_df = df3.groupby('order_time_hms')['sale_ord_id'].count()
x = pay_time_df.index
y = pay_time_df.values
trace = go.Bar(
    x = x,
    y = y,
    text=y,
    textposition='outside')
layout = go.Layout(
    title = dict(text='不同时间段有效订单分布',x=0.5),
    xaxis=dict(title='时间',tickmode='linear'),
    yaxis=dict(title='有效订单数')

)
fig = go.Figure(data=trace,layout=layout)
fig

通过观察，0点有效订单数出现了激增的情况，这一部分是出现了异常订单还是说过了0点以后通过抢购物券使这一部分订单增加？

同时，除了0点外，10、20点有效订单数具有一个较高的值，说明用户比较偏向于早上10点和晚上20点付款。早上10点付款推测原因可能是刚到公司，先逛一下京东摸摸鱼，晚上20点推测原因是晚饭后，这个时间距离睡觉还比较早，用户刷手机的频率增加，因此增加有效订单数。

针对0点有效订单数偏高的问题，我们进行进一的分析人均有效订单的情况。

3.5人均有效订单与时间的关系

order_time_df=df3.groupby('order_time_hms')['sale_ord_id'].agg({('order_num','count')}).reset_index()
user_time_df = df3.groupby('order_time_hms')['user_log_acct'].agg({('user_num','nunique')}).reset_index()
order_num_per_user = order_time_df['order_num'] / user_time_df['user_num']
trace = go.Scatter(
    x = order_num_per_user.index,
    y = order_num_per_user.values,
    mode = 'lines', # 折线图
    line = dict(
        width = 2
    ) )
layout = go.Layout(
    title = dict(text='不同时间段人均订单量的分布',x=0.5),
    xaxis=dict(title='时间',tickmode='linear'),
    yaxis=dict(title='人均有效订单量')

)
fig = go.Figure(data=trace,layout=layout)
fig

通过观察发现，0点时候的人均有效订单率处于较为正常的值，甚至比1点的有效订单率低，因此有效订单的激增，我们认为很大概率是通过抢优惠劵增加而不是出现了恶意刷单。

同时我们看到20点的人均有效订单率也是处于较为正常的值

3.6人均客单价和平均价在不同时间段的分布

客单价=销售额/顾客数

平均订单价=销售额/订单数

0时客单价和平均订单价在全天有个较高的值，会不会是小部分用户的极端购物行为产生这样的数据呢？

因此我们看一下0时和20时价格订单的分布图

3.7 0时和20时订单价格分布

通过看0时和20时不同时间段订单累计分布图我们可以看到

大约20%的0时用户的订单在2K以下，20时用户在2K以下的订单占比为75%

这说明0时的用户并补只有一小部分的订单价格很高，而是0时的用户普遍的购物具有较高的客单价。

因此我们推测，0时用户是否具有一定的冲动购物的情况，而20时购物的用户相对理智一些

也可能时用户为了使用优惠劵使高额的订单大多集中在0时

3.8订单与地区的关系

对于冰箱市场而言，哪些省份是冰箱的头部市场呢？

通过查看不同省份有效订单分布图我们可以看到，订单的市场大多集中在一线城市或者经济较为发达的省份，这部分城市经济发达，对于年轻人有较强大的吸引力，因此购置冰箱的订单数较高。

那么这些不同省份客单价是否会不同？

其中上海客单价最高，广东的订单数量最多，因为广州在外贸上具有较大的优势，因此有具有较大的实体工厂，能吸纳较多的低端人才，因此出现订单数量多而客单价不高的情况。

与之相反的是上海作为国家的金融中心，汇聚了较多的金融方向的从业者，因此在消费品质上有一个较大的提升。

最后我们来看看不同品牌的客单价

3.9不同品牌客单价

通过图中我们可以看到，卡萨帝稳居客单价排行第一的品牌，妥妥的豪华冰箱品牌

价格的第一梯队品牌有博世、西门子、松下、三星平均价格在4K以上

价格的第二梯队品牌有海尔、小米、伊莱克斯、格兰仕、美的平均价格在2K以上其中有不少国产品牌的身影

剩下的品牌价格都在2K以下，这部分市场消费需求大，因此各大品牌在这一区间段价格竞争比较激烈。

4.小结

本项目针对京东的冰箱订单数据进行了分析，在分析过程中没用使用复杂的模型以及炫酷的图表，而是通过普通的数据展示一步步深挖数据产生的原因，并提出了一部分产生数据的原因。因此在数据分析中，往往数据指标的建立对于数据的深挖具有较大的意义，同时针对异常数据提出一定的推测和假设，通过有效的数据分析进行小心求证。

5.项目源码和数据

数据采用utf-8编码，直接打开可能会出现乱码的情况，因此在读取数据时需要指定字符编码集

公众号（Datawhale）后台回复 “202013” 获取打包的项目源码和数据

“整理不易，点赞三连↓

Original: https://blog.csdn.net/Datawhale/article/details/112166194
Author: Datawhale
Title: 电商数据分析项目总结！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679309/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于深度学习的仪表读数读取

基于深度学习的仪表盘识别代码：https://github.com/HibikiJie/ReadMeter 权重文件：链接: https://pan.baidu.com/s/1w…

人工智能 2023年6月17日
00105
【实战】——以波士顿房价为例进行数据的相关分析和回归分析

目录前言一、相关分析 * 1、概念 2、数据来源及处理 3、分析 – 3.1、协方差 3.2、相关系数二、回归分析 * 1、概念 2、一元线性回归 3、多元回归 …

人工智能 2023年6月19日
0094
关于python3.9版本在anaconda创建好的环境中安装opencv库、skimage库、sklearn库解决方法，同样适用于python3.10

目录问题的由来问题的检测问题的解决总结文件附予我是技术小白，但很愿意与大家分享相同的问题及解决的办法，有误望指点。问题的由来在参与图像去阴影/去噪/去雨滴/修…

人工智能 2023年6月19日
00100
【BP回归预测】基于matlab Tent混沌映射改进的麻雀算法优化BP神经网络回归预测【含Matlab源码 1707期】

⛄一、sine混沌映射改进的麻雀搜索算法优化BP神经网络简介 ISSA优化BP神经网络算法建模过程如图1所示，具体流程如下： (1) 确定BP神经网络的拓扑结构，输入层节点数为5,…

人工智能 2023年6月17日
0077
语音合成论文优选：个性化AdaSpeech: Adaptive Text to Speech for Custom Voice

免责声明：首选系列演讲合成论文以分享论文为主，分享论文不直接翻译，内容主要是我对论文内容的总结和个人观点。如果是转载，请注明出处。 [En] Disclaimer: the pre…

人工智能 2023年5月25日
0095
nosql期末

1、NoSQL一词表示的含义是（）。没有SQL不是SQL非关系型数据库（答案）关系型数据库 2、大数据时代，数据的存储与管理不包括哪些要求？（）数据管理系统具有很高的扩展性，…

人工智能 2023年6月27日
00158
Python数据可视化之美

目录第1 章 Python 编程基础 1 1.1 Python 基础知识 2 1.1.1 Python 3.7 的安装 2 Jupyter Notebook Spyder 1.1…

人工智能 2023年7月8日
0073
数学建模之聚类模型

“物以类聚，人以群分”。包罗万象的数据也是如此，数据本身是凌乱的，如何在凌乱之中去发掘数据的信息呢？本文将介绍聚类模型。所谓聚类，就是将样本划分为由类似对…

人工智能 2023年5月31日
0091
人工智能初学1

1、大数据是什么？（1）大数据(big data)，或称巨量资料，指的是所涉及的资料量规模巨大到无法透过目前主流软件工具，在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营…

人工智能 2023年7月18日
0054
python之操作mysql数据库

第三节–Python之操作mysql数据库 提示：这里&#x5…

人工智能 2023年7月4日
0071
【yolov6系列一】深度解析网络架构

在yolov5霸屏计算机视觉领域很久时，六月处美团开源了yolov6，并号称在精度和速度上均超越其他同量级的计算机视觉模型，刚刚瞅了一眼，star已经超过2.8k,脑子里莫名冒出一…

人工智能 2023年6月16日
0093
2021年蓝桥杯赛题【Python】

【填空】 1、卡片小蓝有很多数字卡片，每张卡片上都是数字 0 到 9。小蓝准备用这些卡片来拼一些数，他想从 1 开始拼出正整数，每拼一个，就保存起来，卡片就不能用来拼其它数了…

人工智能 2023年7月5日
00121
基于奇异值分解的图像压缩matlab

话不多说上才艺文章目录 * – 嘛是图像压缩🤷‍♂️ – + 聊聊图像格式🐱‍🐉 – 奇异值分解🎉 – + 特征值分解evd🎉 +…

人工智能 2023年6月18日
00119
矩形液体包装纸箱行业调研报告 – 市场现状分析与发展前景预测

出版商：贝哲斯咨询获取报告样本：企业竞争态势该报告涉及的主要国际市场参与者有Tetra Laval、SIG Combibloc、ELOPAK、Greatview、Evergr…

人工智能 2023年6月11日
0061
MATLAB – 外卖送餐路径优化算法（最短路径）

目录作业名称：外卖送餐路径优化算法（1）计算最优路径（总送餐时间最短策略）（2）如果目标是客户总最短等待时间策略，最优路径如何（3）如果考虑有优先客户（某个客户指定某个时间…

人工智能 2023年6月16日
0072
机器学习算法（十二）：聚类

目录 1 K的选择 1.1 肘部法则(Elbow method) 1.2 目标法则 1.3 间隔统计量 Gap Statistic 1.4 关于K值选择的改进算法——ISODATA…

人工智能 2023年5月31日
00146

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31