Python+大数据-数据分析与处理(六)-综合案例

2023年7月31日上午3:46 • 人工智能 • 阅读 70

案例一：Appstore数据分析

学习目标
掌握描述性数据分析流程
能够使用pandas、seaborn进行数据分析和可视化

1.案例介绍

案例背景：

对 App 下载和评分数据分析，帮助 App 开发者获取和留存用户
通过对应用商店的数据分析为开发人员提供可操作的意见

分析需求：

免费和收费的 App 都集中在哪些类别
收费 App 的价格是如何分布的，不同类别的价格分布怎样
App文件的大小和价格以及用户评分之间是否有关

分析流程：

1）数据概况分析

数据行/列数量
缺失值分布

2）单变量分析

数字型变量的描述指标（平均值，最小值，最大值，标准差等）
类别型变量（多少个分类，各自占比）

3）多变量分析

按类别交叉对比
变量之间的相关性分析

4）可视化分析

分布趋势（直方图）
不同组差异（柱状图）
相关性（散点图/热力图）

数据集说明：

本案例使用 applestore.csv 数据集，其数据字段如下：

字段说明 id

App ID：每个 App 唯一标识 track_name

App 的名称 size_bytes

以 bytes 为单位的 App 大小 price

定价（美元） rating_count_tot

App 所有版本的用户评分数量 rating_count_ver

App 当前版本的用户评分数量 prime_genre

App 的类别 user_rating

App 所有版本的用户评分 sup_devices.num

支持的 iOS 设备数量 ipadSc_urls.num

App 提供的截屏展示数量 lang.num

支持的语言数量

2. 数据清洗


import pandas as pd
app = pd.read_csv('./data/applestore.csv',index_col=0)
app


app.info()


app.describe()


app.shape

(7197, 10)


app['size_mb'] = app['size_bytes']/(1024*1024)
app


app.size_mb.describe()


app['paid'] = app['price'].apply(lambda x : 1 if x>0 else 0)
app


app['paid'].value_counts()

3.单变量分析


app.price.value_counts()


bins = [0,2,10,30]
labels=[',',']

app['price_new'] = pd.cut(app.price,bins ,right=False,labels=labels)
app.head(20)


app.groupby('price_new')['price'].describe()


app.groupby('prime_genre')['price'].describe()


app = app[app['price'] 49.99]
app.head()


app.rating_count_tot.describe()

4.业务数据可视化

import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

sns.relplot(x='prime_genre', y='user_rating', kind='line', data=app, height=5, aspect=3)

plt.xticks(
    rotation=45,
    horizontalalignment='right',
    fontweight='light',
    fontsize='x-large'
)


plt.figure(figsize=(20,8))

app_result = app[app['price']9.99]
sns.displot(app_result['price'])


plt.figure(figsize=(20, 8))
sns.boxplot(x='price', y='prime_genre', data=app[app['paid']==1])
plt.yticks(fontweight='light', fontsize='x-large')


top5 = app.groupby('prime_genre')['price'].count().sort_values(ascending=False).head()
app5 = app[app.prime_genre.isin(top5.index)]

plt.figure(figsize=(20, 8))
sns.boxplot(x='price', y='prime_genre', data=app5[app5['paid']==1])


plt.figure(figsize=(20, 8))
sns.scatterplot(x='price', y='user_rating', data=app)


plt.figure(figsize=(20, 8))
sns.barplot(x='prime_genre', y='user_rating', data=app5, hue='paid')

5.业务解读

*业务问题1：免费或收费 App 集中在哪些类别？


plt.figure(figsize=(20,8))

sns.countplot(y='prime_genre',data=app,
                order=app['prime_genre'].value_counts().index,hue='paid')

*业务问题2：免费与收费的 App 在不同评分区间的分布？


bins =[0,0.5,2.5,4.5,5.1]
app['rating_level'] = pd.cut(app.user_rating,bins,right=False)
app.groupby('rating_level')['user_rating'].describe()

py
plt.figure(figsize=(20,8))
sns.countplot(x='paid',data=app,hue='rating_level')

*业务问题3：APP的价格、大小和用户评分之间有关系吗？


app[['user_rating','price','size_mb']].corr()


plt.figure(figsize=(20,8))
sns.heatmap(app[['user_rating','price','size_mb']].corr())

案例二：优衣库销售数据分析

学习目标
掌握描述性数据分析流程
能够使用pandas、seaborn进行数据分析和可视化

1.案例介绍

案例背景：

数据集中包含了不同城市优衣库门店的销售记录
通过对销售数据的分析，为运营提供一些有益信息

分析需求：

不同产品的销售情况，顾客喜欢的购买方式
销售额和成本之间的关系
购买时间偏好

数据集说明：

本案例使用 uniqlo.csv 数据集，其数据字段如下：

字段说明 store_id

门店随机id city

城市 channel

销售渠道：网购自提、门店购买 gender_group

客户性别：男、女 age_group

客户年龄段 wkd_ind

购买发生的时间：周末、周间 product

产品类别 customer

客户数量 revenue

销售金额 order

订单数量 quant

购买产品的数量 unit_cost

成本（制作+运营）
2.加载数据


import pandas as pd
uniqlo = pd.read_csv('./data/uniqlo.csv')
uniqlo


uniqlo.info()


uniqlo.shape

(22293, 12)


uniqlo.describe()


uniqlo[uniqlo.revenue<1]


uniqlo[uniqlo.revenue>5000]

3. 业务解读

*不同产品的销售情况


uniqlo.groupby('product')['order'].sum().sort_values(ascending=False)


uniqlo.groupby('product')['quant'].sum().sort_values(ascending=False)

py
uniqlo.pivot_table(values='quant',
                    index='product',
                    columns='city',
                    aggfunc='sum').sort_values('上海',ascending=False)


uniqlo.pivot_table(values='quant',
                  index='product',
                  columns=['city','channel'],
                  aggfunc='sum')

*用户习惯使用哪种方式进行消费


uniqlo.groupby('channel').order.sum()

y
uniqlo.pivot_table(index='city',columns='channel',
                  values='order',aggfunc='sum').sort_values('线上',ascending=False)


uniqlo.pivot_table(values='quant',index='city',
                  columns='channel',aggfunc='sum')

*用户消费习惯(周间还是周末)


uniqlo.wkd_ind.value_counts()


wkd_sales = uniqlo.pivot_table(values='quant',index='wkd_ind',
                              columns='city',aggfunc='sum')
wkd_sales


wkd_sales.loc['weekday_avg',:]= wkd_sales.loc['Weekday',:] /5
wkd_sales.loc['weekend_avg',:]= wkd_sales.loc['Weekend',:] /2
wkd_sales

*销售额和成本之间的关系


uniqlo[['revenue','unit_cost']].corr()

y
uniqlo.unit_cost.value_counts()


uniqlo2 = uniqlo[uniqlo.revenue>1]
uniqlo2.head()


uniqlo2['rev_per_goods'] = uniqlo2['revenue'] / uniqlo2['quant']
uniqlo2[['rev_per_goods','unit_cost']].corr()

p
sns.heatmap(uniqlo2[['rev_per_goods', 'unit_cost']].corr())

Original: https://blog.csdn.net/qq_45588318/article/details/127447517
Author: 呆猛的呆呆小哥
Title: Python+大数据-数据分析与处理(六)-综合案例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/725162/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python中的分位数回归（初探）

分位数回归参考文献 Python statsmodels 介绍 – 树懒学堂 (shulanxt.com) Quantile Regression – I…

人工智能 2023年6月17日
0087
猿创征文｜10个Web开发人员必备的最佳开发工具推荐

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月26日
0094
【含泪提速！】一文全解相似度算法、跟踪算法在各个AI场景的应用（附代码）

大家好，我是cv君，大家是否为深度学习算法速度感到困扰？本次cv君倾力分享一个优秀的方法，通过相似度+跟踪方案优化速度问题，并提高了检测、分割算法稳定性，附带代码，一起肝起来吧~ …

人工智能 2023年7月28日
0090
图像处理（一）图像灰度化的三种方式

图像处理的第一步操作基本都是进行灰度化，二灰度化的方式都很多种，可以根据自己的具体需要进行参数调整，基本分为四大种，分别为 YUV亮度灰度化、最大值灰度化、平均值灰度化、 Ga…

人工智能 2023年6月19日
0064
『微信小程序』从0到1常用组件

🐱‍🐉🐱‍🐉🐱‍🐉 请乘理想之马，挥鞭从此起程，路上春色正好，天上太阳正晴🐾🐾🐾 🌈博客主页👉白小筠文章目录 * – + 常见的视图容器类组件 + * 1、view …

人工智能 2023年6月27日
0081
【算法分析与设计】【期中（末）复习题】【2022秋】

文章目录一. 单选题二. 填空题三. 判断题四. 多选题一. 单选题 1.按照渐近阶从低到高的顺序排列下列表达式： 30n，2logn，4，n! A. 4 Origina…

人工智能 2023年7月30日
0068
SVM算法应用综合练习及人脸识别数据集的建立

文章目录一、安装LibSVM 二、构建数据集并获得决策模型三、人脸识别数据集的建立 * 1.采集自己的脸部图片20张，保存到文件夹中 2.分别将每张图片的特征点数组保存到一个独…

人工智能 2023年7月2日
00121
Anaconda中安装pytorch后，验证import torch失败

这个问题困扰了我两天了，一直在处理但没处理好。因为我使用的conda安装，所以安装后用 conda list 查看了安装的包，是有pytorch这个包的（pip 似乎是 torch…

人工智能 2023年7月21日
0066
环境混合物总体效应：加权分位数和回归（WQS）

1 WQS原理加权分位数和(Weighted Quantile Sum, WQS)回归是一种在环境暴露中常见的高维数据集的多元回归的统计模型。该模型允许通过有监督的方式构建一个加…

人工智能 2023年6月16日
0077
2.3安装工业相机SDK及测试

不同工业相机的sdk不同，可以到相应的官网下载，我使用的是大华相机文中提到的例程的Camera和src的代码在文尾（有兴趣可以参考）下载：官方下载地址：http://downl…

人工智能 2023年7月20日
00128
数据挖掘（四）甲状腺疾病检测

注：参考多篇文章与代码所得，在某些过程处可能存在一些理解错误，请大家批评指正。一、实验内容利用异常检测方法对甲状腺疾病进行检测。二、数据介绍数据集包含16 个类别属性，5个…

人工智能 2023年6月19日
0064
Anaconda下安装tensorflow (windows系统)

因为之前Anaconda、python都已经装好了（可以看之前文章Anaconda超详细安装教程（Windows环境下）_fan18317517352的博客-CSDN博客（本人技术…

人工智能 2023年6月17日
0091
文献笔记1：《Knowledge Graph Completion via Complex Tensor Factorization》理论（上）

0 参考文献 [1] Trouillon T, Dance C R, Welbl J, et al. Knowledge graph completion via complex …

人工智能 2023年6月10日
0067
智源AI日报（2022-08-26）：当下最强的 AI art 生成模型 Stable Diffusion 最全面介绍

【智源AI日报】每天速读5分钟，AI要事不错过！欢迎点击这里，关注并订阅智源AI日报。盘点 | 当下最强的 AI art 生成模型 Stable Diffusion 最全面介…

人工智能 2023年7月30日
0069
[从0开始机器学习]4.线性回归正规方程

🐺本博主博客：ζั͡ ั͡雾 ั͡狼 ั͡✾的博客 🎀专栏：机器学习🎀专栏：爬虫🎀专栏：OpenCV图像识别处理🎀专栏：Unity2D⭐本节课理论视频：P23-P25 正规方程⭐本…

人工智能 2023年6月16日
0084
常用归一化/正则化层：InstanceNorm1d、InstanceNorm2d、

归一化零、前言 * 1.官网链接 2.归一化公式 3.介绍一、InstanceNorm1d * 1. 介绍 2.实例二、InstanceNorm2d * 1. 介绍 2.实例…

人工智能 2023年7月26日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python+大数据-数据分析与处理(六)-综合案例

案例一：Appstore数据分析

1.案例介绍

2. 数据清洗

3.单变量分析

4.业务数据可视化

5.业务解读

案例二： 优衣库销售数据分析

大家都在看

案例二：优衣库销售数据分析