【数据分析】分类指标、用户价值与预测—抖音电商数据集

2023年6月30日下午4:52 • 人工智能 • 阅读 210

该数据集(douyin.csv)主要截取了200000条抖音电商平台上的商品销售情况。本文的分析将先根据数据集的结构选取分析目标，再通过可视化来展示各项分析目标的结果，从而挖掘出影响销售各个指标的因素及程度、进行商业预测。

一、表结构观察，确立分析目标

import pandas as pd
import numpy as np
import os
import matplotlib as plt
import pyecharts
from chart_studio import plotly as py
df=pd.read_csv('D:/CCCCCC/KDD/douyin.csv',encoding='utf-8')

print(df.info())
df.isnull().any()

如图所示，商品id和名称、品牌、成交总额（gmv）、单位销量的数据是几乎齐全的；c1到c3的字段指的是商品分类的三个层次，依次为上一个的子层次；brand_clean相当于从数据集的所有品牌中精选出知名品牌；而店铺信息在该数据表中缺失值较多。

根据以上的结构分析，本文将从三个方面做分析处理：使用c1到c3字段中有的16万多条数据进行商品分类的销量分析；用品牌忠诚度、消费额、消费频率作用户价值分析；最后作出知名品牌带来效益的商业预测。

二、分类指标可视化

from pyecharts.charts import Page,TreeMap
from pyecharts import options as opts
import math
df1=df.copy()
df1=df1.dropna(subset=['c1_id'])
df5=df1[["c1_id","c1_name","c2_id","c2_name","c3_id","c3_name","unit_sold"]]
df6=df5.copy()
df6=df6.join(df6.groupby('c3_name')['unit_sold'].sum(), on='c3_name', rsuffix='_r')
df6=df6.drop('unit_sold',axis=1)
df6=df6.drop_duplicates()
df6.sort_values("c3_id")
writer = pd.ExcelWriter("D:/CCCCCC/KDD/df6.xls")
df6.to_excel(writer)
writer.save()

3. 在进行矩形树图的构造时，我分别构造了前一、二、三层分类的图表，发现如果将前三层全部放入的话可视化效果并不好，故只给出前两层分类的效果图，以及前三层分类的代码；构造矩形树图最关键的一步是建立字典，表现出树的枝叶结构。

df8=pd.read_csv('D:/CCCCCC/KDD/df6.csv',encoding='gb18030')
df8=df8.dropna(axis=0,how='all')
df8.fillna(0, inplace=True)
tree = []
name = [df8['c1'][i]+'\n'+str(df8['v1'][i]) for i in range(len(df8))]

for i in range(len(df8)):
    dic = {}
    dic["value"],dic["name"] = int(df8['v1'][i]),name[i]
    if math.isnan(df8['v1-1'][i]) ==0:
        dic["children"] = [
                            {"name":df8['c1'][i]+"-"+str(df8['c1-1'][i])+'\n'+str(df8['v1-1'][i]),"value":int(df8['v1-1'][i])},
                            {"name":df8['c1'][i]+"-"+str(df8['c1-2'][i])+'\n'+str(df8['v1-2'][i]),"value":int(df8['v1-2'][i])},
                           #为了代码的美观，并未将第二层分类全部列出，根据需要扩写即可
                         ]
#若需要呈现第三层分类的效果，加入如下代码：
"""
    if math.isnan(df8['v1-1-1'][i]) ==0:
        dic["children"][0]["children"] = [
                                        {"name":df8['c1'][i]+"-"+str(df8['c1-1'][i])+"-"+str(df8['c1-1-1'][i])+'\n'+str(df8['v1-1-1'][i]),"value":int(df8['v1-1-1'][i])},
                                        {"name":df8['c1'][i]+"-"+str(df8['c1-1'][i])+"-"+str(df8['c1-1-2'][i])+'\n'+str(df8['v1-1-2'][i]),"value":int(df8['v1-1-2'][i])}
                                        ]
"""
    tree.append(dic)
#绘图
tm=(
      TreeMap()
      .add("c1",tree)
      .set_series_opts(label_opts=opts.LabelOpts(position='inside'))
      .set_global_opts(title_opts=opts.TitleOpts(title = 'sales_treemap',subtitle = '2022/8/1-pili_unagi'))
      )

tm.render('treemap3.html')

三、用户价值分析

从现有字段里选取三个能够表现客户消费意愿、消费能力和习惯的属性。

df4=df.copy()
df4=df4.dropna(subset=['user_id'])
df4["brand_clean"].where(df4["brand_clean"].isnull(),1, inplace=True)
df4["brand_clean"].fillna(0, inplace=True)
#属性规约
df4=df4[['gmv','unit_sold','brand_clean']]

将表格数据标准化，便于使用k-means聚类分析用户群。

def zsnorm(df_input):
    return df_input.apply(lambda x: (x-x.mean())/ x.std(), axis=0)

zs_df4=zsnorm(df4)
zs_df4.columns=['ZG','ZU','ZB']

开始用k-means算法进行聚类。

from sklearn.cluster import KMeans
from sklearn import metrics
import matplotlib.pyplot as plt
#模型训练
k_means=KMeans(n_clusters=5)
k_means.fit(zs_df4)
k_means.cluster_centers_ #聚类中心
k_means.labels_ #各样本的类别

r1 = pd.Series(k_means.labels_).value_counts() #各类别频数
r2 = pd.DataFrame(k_means.cluster_centers_)
r = pd.concat([r2,r1],axis=1)
r.columns = list(zs_df4.columns) + ['该聚类人数']

4. 若要求可视化，可绘制雷达图，但考虑到此次归约的属性较少，雷达图效果一般，下面给出代码：

fig=plt.figure(figsize=(10, 10))
ax = fig.add_subplot(111, polar=True)
center_num = r.values
feature = ["gmv", "unit_sold", "brand_clean"]
N =len(feature)
lab = []

for i, v in enumerate(center_num):
    angles=np.linspace(0, 2*np.pi, N, endpoint=False)#等分圆面
    center = np.concatenate((v[:-1],[v[0]]))
    angles=np.concatenate((angles,[angles[0]]))
    ax.plot(angles, center, 'o-', linewidth=2, label = "the%dcluster,%dpeople"%(i+1,v[-1]))
    ax.fill(angles, center, alpha=0.25)
    ax.set_thetagrids(angles * 180/np.pi, feature + [feature[0]], fontsize=15)
    ax.set_ylim(-5,200)
    plt.title('Customer Characteristics Analysis Chart', fontsize=20)
    ax.grid(True)
    lab.append("the{}cluster: {:>7}people".format(i+1, int(v[-1])))

plt.legend(lab, loc='upper right', bbox_to_anchor=(1.3,1.0),ncol=1,fancybox=True,shadow=True)
plt.savefig("D:/CCCCCC/KDD/TTUVA.jpg")
plt.show()

5. 简要分析用户群：聚类①没有品牌要求，消费额和消费量都不高，属于普通百姓的消费水平；聚类②消费额和消费量都不高，但消费品大多都是名牌，通常属于生活质量较高、消费思想较前的人群；聚类③消费量巨大，且非知名品牌，人数也少，该用户群很有可能是批发商（图中绿色）；聚类④在低消费量的同时金额很高，且消费的是大品牌，说明该人群收入高，生活富足（图中红色）；聚类⑤属于消费中位，各方面特征不突出。

四、品牌效应与商业预测

想要体现出消费数据中品牌到底有多大的力量，可以先将知名品牌商品筛选出来，计算出相关指标。

df3=df.copy()
df3=df3.dropna(subset=['brand_clean'])
df3['gmv'].sum()
df['gmv'].sum()
df3['unit_sold'].sum()
df['unit_sold'].sum()

20万条消费数据中，知名品牌的占比是14.52%；成交额gmv占比15.41%；销量占比13.25%；这个数据说明，由于其特殊的产品属性和用户群体，抖音平台并非品牌效应表现最明显之地。

Original: https://blog.csdn.net/qq_56907734/article/details/126058060
Author: 霹雳小鳗鱼
Title: 【数据分析】分类指标、用户价值与预测—抖音电商数据集

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/661674/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用pip安装Cartopy库时，出现报错：Getting requirements to build wheel did not run successfully.

使用pip安装Cartopy库时，出现报错：Getting requirements to build wheel did not run successfully. Gettin…

人工智能 2023年7月5日
0049
Jupyter添加、删除对应虚拟环境kernel内核

添加kernel内核 conda添加了相应的虚拟环境之后，多需要运用到Pycharm、Spyder和Jupyter中，前两种笔者已经分享过，今天阐述Jupyter添加和删除虚拟环境…

人工智能 2023年7月4日
0085
FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection

Paper name FCOS3D: Fully Convolutional One-Stage Monocular 3D Object Detection Paper Readi…

人工智能 2023年5月26日
0088
python读取csv文件并添加索引

对于csv文件进行处理一个重要的步骤是为数据添加索引，方便后续的数据操作这里我们使用pandas库中的read_csv()函数，在读取csv数据的同时可以对其添加行索引和列索引。…

人工智能 2023年7月7日
0056
python 关闭某个程序_python程序怎么结束

需要终止程序，可以使用sys.exit()退出程序。sys.exit()会引发一个异常如果这个异常没有被捕获，那么python编译器将会退出，后面的程序将不会执行。如果这个异常…

人工智能 2023年7月7日
0076
【2023最新版】Spring Cloud面试题总结（35道题含答案解析）

文章目录1、什么是Spring Cloud？2、使用Spring Cloud有什么优势？3、服务注册和发现是什么意思？Spring Cloud如何实现？4、负载平衡的意义什么？5、…

人工智能 2023年6月30日
00114
量化基础总结

量化分类及基本概念模型量化方法本质上是函数映射。量化建立了高精度的浮点数值和量化后低精度的定点数值之间的数据映射。分为线性量化和非线性量化【线性量化】线性量化是目前最常用的…

人工智能 2023年5月28日
0091
【论文笔记】移动机器人视觉 SLAM 研究综述

文章目录摘要 * 关键词 0 引言 1 视觉 SLAM 概述 * 1.1 经典 SLAM 方法 – 1.1.1 基于直接法的视觉 SLAM 1.1.2 基于特征点的视…

人工智能 2023年7月29日
0059
和你一起学习合页损失函数(hinge loss function)

损失函数，loss function的定义为：将随机事件或其有关随机变量的取值映射为非负实数以表示该随机事件的”风险”或”损失”的函…

人工智能 2023年6月16日
0070
拓端tecdat|R语言k-means聚类、层次聚类、主成分（PCA）降维及可视化分析鸢尾花iris数据集

最近我们被客户要求撰写关于鸢尾花iris数据集的研究报告，包括一些图形和统计输出。【视频】KMEANS均值聚类和层次聚类：R语言分析生活幸福质量系数可视化实例 KMEANS均值聚…

人工智能 2023年6月2日
0046
PythonStock（35）使用AKShare 做股票数据出来，几个月没有看AkShare已经从0.9.65升级到了v1.0.80了，之前遇到的函数调用问题也都解决了，持续把相关代码进行升级修改

目录前言 1，关于AKShare 的调用问题 2，升级 akshare 库 3，修改股票查询过滤逻辑 4，总结前言使用Python开发一个web股票项目。【github项目地…

人工智能 2023年5月25日
00145
数字图像处理

直方图均衡: 使p ( s ) = 1 L − 1 p(s)=\frac{1}{L-1}p (s )=L −1 1 、s = ( L − 1 ) ∑ 0 r p ( r ) s=…

人工智能 2023年6月22日
0080
DataFrame基础操作巩固——股票分析(一）

以下案例分析全部在 jupyter notebook 里面完成股票日期从2010年到2022年2月截至，虽然是2022年8月做的数据分析案例，但是是按所述日期进行分析的需求一：…

人工智能 2023年7月8日
0084
张量的轴与实际数据的维度之间有什么关系

问题背景张量是一种多维数组，广泛应用于各个领域的数据处理和分析中。在使用张量进行数据处理时，了解张量的轴与实际数据的维度之间的关系是非常重要的。本文将详细介绍张量轴与数据维度之间…

人工智能 2024年1月1日
0044
php jquery ajax 无法传递POST值的问题

今天在修改程序的时候，又碰到了ajax无法传值的问题，在排查程序的过程中，发现了好几片错误，其它这些错误都可以通过给程序打卡子去查找。如 // JavaScript Documen…

人工智能 2023年6月27日
0060
大四开始学前端|Javascript

绑定事件通过变量获取输入值或者通过函数获取还有引入外部文件猜数字小游戏不要小数Math.floor(Math.random()*100 ) var是可变参数 let也是可…

人工智能 2023年6月27日
0089

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【数据分析】分类指标、用户价值与预测—抖音电商数据集

一、表结构观察，确立分析目标

二、分类指标可视化

三、用户价值分析

四、 品牌效应与商业预测

大家都在看

四、品牌效应与商业预测