如何进行探索性数据分析

2023年7月16日下午9:54 • 人工智能 • 阅读 48

一般数据分析项目第一步都需要探索性数据分析。主要包括三个方面：

使用描述性统计汇总数据
使用图标可视化数据
识别缺失值

通过上述三个方面分析，可以在执行假设检验或统计模型之前对数据集的分布情况有基本理解，并检测获得问题数据情况。

下面通过示例说明探索性数据分析，并给出Python代码实现。

准备示例数据

首先创建pandas数据框：

import pandas as pd
import numpy as np

#create DataFrame
df = pd.DataFrame({'team': ['A', 'A', 'A', 'A', 'B', 'B', 'B', 'B'],
                   'points': [18, 22, 19, 14, 14, 11, 20, 28],
                   'assists': [5, 7, 7, 9, 12, 9, 9, 4],
                   'rebounds': [11, 8, 10, 6, 6, np.nan, 9, 12]})

通过head()函数查看前五行数据：

df.head()

    team    points  assists rebounds
0   A   18  5   11.0
1   A   22  7   8.0
2   A   19  7   10.0
3   A   14  9   6.0
4   B   14  12  6.0

查看数据概况

使用describe() 函数可以快速查看每个数值变量的概况：

df.describe()

      points        assists     rebounds
count   8.0000000   8.00000     7.000000
mean    18.250000   7.75000     8.857143
std 5.3652320   2.54951     2.340126
min 11.000000   4.00000     6.000000
25% 14.000000   6.50000     7.000000
50% 18.500000   8.00000     9.000000
75% 20.500000   9.00000     10.50000
max 28.000000   12.0000     12.00000

每个数值变量的信息说明：

count: 非缺失值数量
std: 均值
min: T最小值
25%: 第一四分位值 (前25%)
50%: 中位数 (前50%)
75%: 第三四分位值 (前75%)
max: 最大值

对于类别变量，可以使用value_counts获得每个值的频数：

df['team'].value_counts()

A    4
B    4
Name: team, dtype: int64

通过输出可以看到：

A: 共出现4次.

B: 共出现4次.

通过shape属性可以获得数据框的维度：即行数和列数：

df.shape

(8, 4)

数据可视化

下面通过可视化方式了解数据集。举例，pandas的hist()函数创建每个数值变量的直方图：

每个直方图的x轴现实每个值，y轴现实值的频数。

import matplotlib.pyplot as plt

df.hist(grid=False, edgecolor='black')
plt.show()

我们还可以使用pandas的boxplot()函数创建箱线图：

&#x521B;&#x5EFA;&#x6BCF;&#x4E2A;&#x53D8;&#x91CF;&#x7684;&#x7BB1;&#x7EBF;&#x56FE;

df.boxplot(grid=False)

上面代码在一张图上展示多个变量的箱线图。但有时因单位不同，需要单独对每个变量画箱线图：

df['points'].plot(kind='box')

&#x6216;&#x4E0B;&#x9762;&#x8BED;&#x6CD5;

df.boxplot(column='points', grid=False)

也可以使用pandas的corr函数创建协方差矩阵：

df.corr()

         points   assists    rebounds
points  1.000000    -0.725841    0.767007
assists -0.725841    1.000000   -0.882046
rebounds  0.767007  -0.882046    1.000000

识别缺失值

下面代码统计所有缺失值：

df.isnull().sum()

team        0
points      0
assists     0
rebounds    1
dtype: int64

输出显示仅rebounds变量一个缺失值，其他列没有缺失值。

总结

经过上面步骤，我们基本已经完成了该数据集的基本探索性数据分析，并且较好地理解了数据集中每个变量值的如何分布情况。

Original: https://blog.csdn.net/neweastsun/article/details/125362564
Author: 梦想画家
Title: 如何进行探索性数据分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697298/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

移动开发-语音识别-调用讯飞平台提供的API

1 登录讯飞平台，申请账号，创建一个应用具体步骤可以百度查找 2 进入”我的应用”，下载相应的SDK文件选择语音听写（流式版）-> Andro…

人工智能 2023年5月27日
0080
嵌入式属于人工智能吗？

嵌入式是以应用为中心，以计算机技术为基础，具备存储、通讯、显示能力，并且软硬件可裁剪、可靠性、成本、体积、功耗有严格要求的专用计算机系统.嵌入式系统是一种软件和硬相结合的专用的计算…

人工智能 2023年7月19日
0068
MMDetection(3D)中的Hook与Runner简介（含EvalHook的介绍）

MMDetection(3D)中，最常用的Runner是EpochBasedRunner。下面以EpochBasedRunner为例介绍Runner。run()函数是Runner的…

人工智能 2023年6月30日
0084
[TensorFlow] arm架构macOS安装TensorFlow并开启GPU加速

在M1系列的arm架构macOS上安装TensorFlow时，如果直接使用 pip install tensorflow安装会出现如下错误： ERROR: Could not fi…

人工智能 2023年5月25日
0091
如何轻松处理时间序列数据？

### 回答1：利用Keras构建CNN模型处理时间序列数据_主要通过将 _时间序列数据_转化为二维图像矩阵的形式，然后通过卷积神经网络（CNN）对这些图像进行训练和预测…

人工智能 2023年7月17日
0057
RuntimeError: “nll_loss_forward_reduce_cuda_kernel_2d_index“ not implemented for ‘Int‘

Traceback (most recent call last): File "E:/MyWorkspace/EEG/Pytorch/Train.py", l…

人工智能 2023年7月4日
0052
准确率（Accuracy）、精度（Precision）、召回率（Recall）和 mAP 的图解

机器学习的评价指标让人眼花缭乱。以前我写过一篇笔记总结了这个话题，有兴趣的可以参考一下：一分钟看懂深度学习中的准确率（Accuracy）、精度（Precision）、召回率（Rec…

人工智能 2023年7月27日
00125
【学习记录】基于知识图谱的虚假新闻检测

菜鸟自救学习记录。 “基于知识图谱的虚假新闻检测”，要解决的关键词大致包含了”知识图谱”、”虚假新闻检测”，…

人工智能 2023年6月1日
0099
在python中安装tensorflow出现错误“ERROR: Exception: Traceback (most recent call last): File……“,等系列问题

在python中安装tensorflow出现错误:“ERROR: Exception: Traceback (most recent call last): File&…

人工智能 2023年5月23日
0092
利用R语言Tidymodel包，对随机森林R语言实现

本人也是才学习tidymodel包，运用其中的随机森林引擎，完成随机森林算法的R语言实现。数据简介本文利用的数据是随机数据，只是为了实现运行的”工具人数据罢了&#8…

人工智能 2023年7月17日
0092
神级编程网站，堪称程序员的充电站，我给你找好了不能错过

准备了几个网站，希望能帮助各位朋友。不多说直接来干货内容。刷面类网站 0x00 牛客网—面经和刷面试题牛客网作为国内内容超级丰富的 IT 题库，题库+面试+学习+求职+讨论+考…

人工智能 2023年5月30日
0071
【机器学习实验四】朴素贝叶斯算法

目录 ………………………………&#…

人工智能 2023年7月1日
0082
创新项目实训：数据分析与可视化

宝可梦数据分析与可视化数据分析与提取数据可视化数据分析与提取我们对爬取好的csv文件数据进行分析来设计课题后，通过pandas提取需要的信息并分析统计。题设：1.id1-…

人工智能 2023年6月19日
0065
一. 卡尔曼滤波器开发实践之一: 五大公式详解

既然标题名称是开发实践,本系列文章将主要介绍如何在工程实践中使用卡尔曼滤波器,至于卡尔曼滤波器的五大公式如何推导而来,网上有很多大拿们写的都很精彩,这里不再叙述.可以参考了下面两篇…

人工智能 2023年6月25日
0085
时空图神经网络（ST-GNN）

1. 文章信息文章题为《SPACE-TIME GRAPH NEURAL NETWORKS》，提出了一种新颖的图网络结构。 2. 摘要文章介绍了时空图神经网络（ST-GNN），这…

人工智能 2023年6月24日
0061
xrd计算晶面间距_XRD知识

XRD全称X射线衍射(X-RayDiffraction),利用X射线在晶体中的衍射现象来获得衍射后X射线信号特征，经过处理得到衍射图谱。利用谱图信息不仅可以实现常规显微镜的确定物相…

人工智能 2023年6月1日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

如何进行探索性数据分析

准备示例数据

查看数据概况

数据可视化

识别缺失值

总结

大家都在看