数据挖掘导论——可视化分析实验

2023年6月19日下午7:51 • 人工智能 • 阅读 96

可视化分析实验

商店客流量数据可视化
*
数据来源
实验要求：
–
皮马印第安人糖尿病数据可视化
*
数据来源：http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes。”pima.csv”数据前9个字段的含义：
实验要求：
–

商店客流量数据可视化

数据来源

商店数据来自天池口碑商家客流量预测比赛，这里只筛选了一部分数据。”shop_payNum_new.csv”的数据各个字段的含义如下表所示：

; 实验要求：

参考案例一从以下任务中任选5个绘制不同图形的任务：

绘制所有便利店的10月的客流量折线图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data = data_total.iloc[data_total.index.month == 10]
data_id = data.groupby('shop_id')
for key in data_id.groups.keys():
    data_id.get_group(key).plot(y=['pay_num'], title='customer flow of shop '+str(key))
plt.show()

【分析】
首先使用pandas.read_csv获取全部商铺数据。由于需要筛选10月的客流量折线图，则用iloc完成数据筛选，并利用shop_id进行groupby分组以获取各个商店的id键。对于每个键，依次用get_group获取对应商店的数据，并利用plot进行绘图。

【运行】
由于实际运行绘图比较多，故只展示一部分。

绘制每类商家10月份的日平均客流量折线图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data = data_total.iloc[data_total.index.month == 10]
data_id = data.groupby('cate_2_name')
for keys in data_id.groups.keys():
    data_id.get_group(keys).groupby(data_id.get_group(keys).index.day).mean().plot(y=['pay_num'], kind='line', title=keys)
plt.show()

【分析】
首先使用pandas.read_csv获取全部商铺数据。由于需要筛选每类商家10月份的日平均客流量折线图。使用iloc对数据进行过滤，筛选出每个商家10月份的数据。利用groupby对销售数据进行分组并获取每组的键值。利用循环遍历每个键，再获取日期并对日期取平均值，最后利用plot生成折线图。

【运行】
部分结果展示如下

选择一个商家，统计每月的总客流量，绘制柱状图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data_14 = data_total[data_total['shop_id'] == 14]
data_14_id = data_14.groupby(data_14.index.month).sum()
data_14_id.plot(kind='bar', y=['pay_num'], title='total custom of shop-14')
plt.xlabel('month')
plt.show()

【分析】
首先使用pandas.read_csv获取全部商铺数据。由于需要筛选单个商家各个月份的总客流量。首先对数据进行过滤筛选，筛选出shop_id为14的数据。利用groupby结合sum函数进行分组求和，最后设置kind为柱状图并生成绘图即可。

【运行】

选择一个商家，统计某个月中，周一到周日的每天平均客流量，并绘制柱状图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import time

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data_14 = data_total[(data_total['shop_id'] == 14) & (data_total.index.month == 1)]
data_14_id = data_14.groupby(data_14.index.strftime('%w'))
data_14_id.mean().plot(y=['pay_num'], kind='bar', title='Average custom of shop 14 in January')
plt.xlabel('day')
plt.show()

【分析】
首先使用pandas.read_csv获取全部商铺数据。由于需要筛选单个商家单个月份的平均客流量。首先对数据进行过滤筛选，筛选出shop_id为14，且在1月份的数据。利用groupby结合strftime函数利用日期进行分组求平均值，最后直接绘图为柱状图即可。

【运行】

选择一个商家，绘制客流量直方图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data_14 = data_total[data_total['shop_id'] == 14]
data_14.plot(kind='hist', y=['pay_num'], title='shop-14-block')
plt.show()

【分析】
首先使用pandas.read_csv读取全部商铺数据，然后根据shop_id，对所有数据进行筛选。筛选出对应店铺的数据后直接使用plot进行绘图，并选择样式为’hist’柱状图即可。

【运行】

选择一个商家，绘制客流量密度图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data_14 = data_total[data_total['shop_id'] == 14]
data_14.plot(kind='kde', y=['pay_num'], title='shop-14-density')
plt.show()

【分析】
首先使用pandas.read_csv读取全部商铺数据，然后根据shop_id，对所有数据进行筛选。筛选出对应店铺的数据后直接使用plot进行绘图，并选择样式为’kde’密度分布图即可。

【运行】

统计某个月各个类别商店总客流量占该月总客流量的比例，绘制饼图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

data_total = pd.read_csv('dataset/shop_payNum_new.csv', parse_dates=True, index_col=0)

data_month1 = data_total[data_total.index.month == 1]
data_month1_rate = data_month1.groupby('cate_2_name').sum() / data_month1['pay_num'].sum()
data_month1_rate['pay_num'].plot(kind='pie', autopct='%.2f')
plt.ylabel('')
plt.title('January')
plt.show()

【分析】
首先使用pandas.read_csv读取全部商铺数据，然后根据1月，对所有数据进行筛选。然后使用groupby和sum对各个类别客流量进行分组求和，使用sum对全部客流量进行求和。两结果做比的结果即为所占比例。最后根据所占比例作饼状图即可。

【运行】

皮马印第安人糖尿病数据可视化

数据来源：http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes。”pima.csv”数据前9个字段的含义：

(1)Number of times pregnant
(2)Plasma glucose concentration a 2 hours in an oral glucosetolerancetest
(3)Diastolic blood pressure (mm Hg)
(4)Triceps skin fold thickness (mm)
(5)2-Hour serum insulin (mu U/ml)
(6)Body mass index (weight in kg/(height in m)^2)
(7)Diabetes pedigree function
(8)Age (years)
(9)Class variable (0 or 1)

实验要求：

参考案例二完成以下任务：

任选两个字段绘制散点图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)
close_px_all.columns = ['Number of times pregnant',
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',
                        'Age (years)', 'Class variable']

pregnant_age = close_px_all[['Number of times pregnant', 'Age (years)', 'Class variable']]
ax = pregnant_age[pregnant_age['Class variable'] == 0].plot(kind='scatter', y='Number of times pregnant', c='red',
                                                            x='Age (years)', title='Number of times pregnant-Age',
                                                            ax=None)
pregnant_age[pregnant_age['Class variable'] == 1].plot(kind='scatter', y='Number of times pregnant', c='blue',
                                                       x='Age (years)', title='Number of times pregnant-Age', ax=ax)
plt.show()

【分析】
首先通过pandas.read_csv读入数据，然后给各个列命名，方便处理。由于要展示Number of times pregnant与Age的关系通过筛选数据仅保留这两列即可。然后使用plot对数据进行可视化绘图，选择kind为’scatter’并规定横纵坐标即可。

【运行】

使用全部或者部分特征绘制散布图。

【代码】

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)
close_px_all.columns = ['Number of times pregnant',
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',
                        'Age (years)', 'Class variable']

color = {1: 'red', 0: 'blue'}
pd.plotting.scatter_matrix(close_px_all.iloc[:, [0, 3, 4]], figsize=(9, 9), diagonal='kde', s=40, alpha=0.6,
                           c=close_px_all['Class variable'].apply(lambda x: color[x]))
plt.show()

【分析】
选取了Number of times pregnant，Triceps skin fold thickness和2-Hour serum insulin对class variable进行特征分析绘制散布图。首先通过pandas.read_csv读入数据，然后给各个列命名，方便处理。利用scatter对第0列，第3列和第4列进行分析，并绘图显示散布图。

【运行】

绘制调和曲线图。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

close_px_all = pd.read_csv('dataset/pima.csv', parse_dates=True, index_col=None, header=None)
close_px_all.columns = ['Number of times pregnant',
                        'Plasma glucose concentration a 2 hours in an oral glucosetolerancetest',
                        'Diastolic blood pressure (mm Hg)', 'Triceps skin fold thickness (mm)',
                        '2-Hour serum insulin (mu U/ml)', 'Body mass index', 'Diabetes pedigree function',
                        'Age (years)', 'Class variable']

pd.plotting.andrews_curves(close_px_all, 'Class variable', color=['red', 'blue'])
plt.show()

【分析】
首先通过pandas.read_csv读入数据，然后给各个列命名，方便处理。直接调用函数进行绘图即可。

【运行】

Original: https://blog.csdn.net/m0_46326495/article/details/123691554
Author: 上山打老虎D
Title: 数据挖掘导论——可视化分析实验

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640086/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch 笔记：tensorboardX

1 SummaryWriter 1.1 创建首先，需要创建一个 SummaryWriter 的示例： from tensorboardX import SummaryWriter…

人工智能 2023年6月18日
0095
Jetson Xavier安装使用多个摄像头

效果展示： 单目全向视觉感…

人工智能 2023年7月19日
0060
MongoDB与阿里云交出三年合作优秀“成绩单”，携手开启下一站创新

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月29日
0093
TensorFlow中的Feed和Fetch是什么

问题概述在TensorFlow中，Feed和Fetch是两个重要的概念，用于提供和获取数据。Feed用于将数据传入计算图中的占位符，而Fetch允许我们获取计算图中的任何操作或变…

人工智能 2023年12月31日
0041
如何划分机器学习的训练集和测试集

使用机器学习算法时，通常需要把数据分为训练集和测试集，本文介绍R语言的三种实现方法，并通过示例进行学习。使用R内置方法依据sample函数生成指定概率的true和false的向…

人工智能 2023年6月16日
00111
【单细胞分析】P2.5、聚类，筛选marker基因，可视化

#5.1 聚类 pc.num=1:20 #基于PCA数据 scRNA 这里构建pc.nmu这个数列，相当于选取20个元素进行后续的计算。 findneighbors和findclu…

人工智能 2023年5月31日
0090
git branch 分支管理

在多人协作的情况下,master通常是稳定的分支.可以再建一些”develop”,”testing”等名称的分支.主管master的…

人工智能 2023年6月4日
0082
Open3D 法线估计(2)——法线定向

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月11日
0061
MMdetection之train.py源码详解

一、tools/train.py 二、源码详解三、核心函数详解（一）build_detector（mmdet/models/builder.py）（二） build_data…

人工智能 2023年7月22日
0064
第十四届蓝桥杯（Web应用开发）模拟赛1期-大学组

数据类型检测请看这篇数据类型检测渐变色背景生成器 html DOCTYPE html> <html lang="en"> <head…

人工智能 2023年7月19日
0058
MySQL-4-DDL

DDL:数据定义语言创建create 语法： create database 【if not exists】库&…

人工智能 2023年6月4日
0079
手撸一个在线学习在线教育小程序

最近有小伙伴找小孟开发了一个在线教育的小程序项目。一，小程序介绍微信小程序，它的简称是小程序，其英文名称叫做Mini Program，是一种不需要在手机应用商店里面下载就可以在…

人工智能 2023年5月31日
0071
深度学习之图像分类（十八）– Vision Transformer(ViT)网络详解

深度学习之图像分类（十八）Vision Transformer(ViT)网络详解目录 * – 深度学习之图像分类（十八）Vision Transformer(ViT)…

人工智能 2023年7月27日
0086
python课程设计——当当网Python图书数据分析

一、数据获取本次项目数据来源为爬虫获取，目标为为当当网上关于python的书籍爬虫主要思路：通过观察当当网，观察结构，选用适合的方法。先进行单页的数据爬取，再进行多页爬取；解析方…

人工智能 2023年7月15日
0071
PyQt5下+OpenCV启动摄像头

PyQt5下+OpenCV启动摄像头第一步：用PyQt5下的QtDesigner设计界面，如下：其中：1、摄像头为QLabel，大小设置为640X480，这也是笔记本上普通摄像…

人工智能 2023年6月18日
0072
Python 箱型图的绘制并提取特征值

文章目录一、简介二、绘制与提取 * 1、图形绘制 2、ax.boxplot 函数的使用 3、特征值提取三、多箱型图绘制 * 1、一种类型 2、多种类型参考：https://…

人工智能 2023年6月19日
00161

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据挖掘导论——可视化分析实验

可视化分析实验

数据来源

; 实验要求：

绘制所有便利店的10月的客流量折线图。

绘制每类商家10月份的日平均客流量折线图。

选择一个商家，统计每月的总客流量，绘制柱状图。

选择一个商家，统计某个月中，周一到周日的每天平均客流量，并绘制柱状图。

选择一个商家，绘制客流量直方图。

选择一个商家，绘制客流量密度图。

统计某个月各个类别商店总客流量占该月总客流量的比例，绘制饼图。

数据来源：http://archive.ics.uci.edu/ml/datasets/Pima+Indians+Diabetes。”pima.csv”数据前9个字段的含义：

实验要求：

任选两个字段绘制散点图。

使用全部或者部分特征绘制散布图。

绘制调和曲线图。

大家都在看