Python数据可视化(Pandas_6_处理Nan的思路)

2023年8月8日下午6:19 • Python • 阅读 66

正如之前提到的，在能够使用大型数据集训练学习算法之前，我们通常需要先清理数据。也就是说，我们需要通过某个方法检测并更正数据中的错误。虽然任何给定数据集可能会出现各种糟糕的数据，例如离群值或不正确的值，但是我们几乎始终会遇到的糟糕数据类型是缺少值。正如之前看到的，Pandas 会为缺少的值分配 NaN 值。在这，我们将学习如何检测和处理 NaN 值。
首先，我们将创建一个具有一些 NaN 值的 DataFrame。


items2 = [{'bikes': 20, 'pants': 30, 'watches': 35, 'shirts': 15, 'shoes':8, 'suits':45},
{'watches': 10, 'glasses': 50, 'bikes': 15, 'pants':5, 'shirts': 2, 'shoes':5, 'suits':7},
{'bikes': 20, 'pants': 30, 'watches': 35, 'glasses': 4, 'shoes':10}]

store_items = pd.DataFrame(items2, index = ['store 1', 'store 2', 'store 3'])

store_items

可以清晰地看出，我们创建的 DataFrame 具有 3 个 NaN 值：商店 1 中有一个，商店 3 中有两个。但是，如果我们向 DataFrame 中加载非常庞大的数据集，可能有数百万条数据，那么就不太容易直观地发现 NaN 值的数量。对于这些情形，我们结合使用多种方法来计算数据中的 NaN 值的数量。以下示例同时使用了 .isnull() 和 sum() 方法来计算我们的 DataFrame 中的 NaN 值的数量。


x =  store_items.isnull().sum().sum()

print('Number of NaN values in our DataFrame:', x)

umber of NaN values in our DataFrame: 3

在上述示例中， .isnull() 方法返回一个大小和 store_items 一样的布尔型 DataFrame，并用 True 表示具有 NaN 值的元素，用 False 表示非 NaN 值的元素。我们来看一个示例：

store_items.isnull()

在 Pandas 中，逻辑值 True 的数字值是 1，逻辑值 False 的数字值是 0。因此，我们可以通过数逻辑值 True 的数量数出 NaN 值的数量。为了数逻辑值 True 的总数，我们使用 .sum() 方法两次。要使用该方法两次，是因为第一个 sum() 返回一个 Pandas Series，其中存储了列上的逻辑值 True 的总数，如下所示：

store_items.isnull().sum()

第二个 sum() 将上述 Pandas Series 中的 1 相加。

除了数 NaN 值的数量之外，我们还可以采用相反的方式，我们可以数非 NaN 值的数量。为此，我们可以使用 .count() 方法，如下所示：


print()
print('Number of non-NaN values in the columns of our DataFrame:\n', store_items.count())

现在我们已经知道如何判断数据集中是否有任何 NaN 值，下一步是决定如何处理这些 NaN 值。通常，我们有两种选择，可以删除或替换 NaN 值。在下面的示例中，我们将介绍这两种方式。

首先，我们将学习如何从 DataFrame 中删除包含任何 NaN 值的行或列。如果 axis = 0， .dropna(axis) 方法将删除包含 NaN 值的任何行，如果 axis = 1， .dropna(axis) 方法将删除包含 NaN 值的任何列。我们来看一些示例：

注意， .dropna() 方法不在原地地删除具有 NaN 值的行或列。也就是说，原始 DataFrame 不会改变。你始终可以在 dropna() 方法中将关键字 inplace 设为 True，在原地删除目标行或列。

现在，我们不再删除 NaN 值，而是将它们替换为合适的值。例如，我们可以选择将所有 NaN 值替换为 0。为此，我们可以使用 .fillna() 方法，如下所示。


store_items.fillna(0)

我们还可以使用 .fillna() 方法将 NaN 值替换为 DataFrame 中的上个值，称之为前向填充。在通过前向填充替换 NaN 值时，我们可以使用列或行中的上个值。 .fillna(method = 'ffill', axis) 将通过前向填充 (ffill) 方法沿着给定 axis 使用上个已知值替换 NaN 值。我们来看一些示例


store_items.fillna(method = 'ffill', axis = 0)

注意 store 3 中的两个 NaN 值被替换成了它们所在列中的上个值。但是注意， store 1 中的 NaN 值没有被替换掉。因为这列前面没有值，因为 NaN 值是该列的第一个值。但是，如果使用上个行值进行前向填充，则不会发生这种情况。我们来看看具体情形：


store_items.fillna(method = 'ffill', axis = 1)

我们看到，在这种情形下，所有 NaN 值都被替换成了之前的行值。

同样，你可以选择用 DataFrame 中之后的值替换 NaN 值，称之为后向填充。 .fillna(method = 'backfill', axis) 将通过后向填充 (backfill) 方法沿着给定 axis 使用下个已知值替换 NaN 值。和前向填充一样，我们可以选择使用行值或列值。我们来看一些示例：


store_items.fillna(method = 'backfill', axis = 0)

注意， store 1 中的 NaN 值被替换成了它所在列的下个值。但是注意， store 3 中的两个 NaN 值没有被替换掉。因为这些列中没有下个值，这些 NaN 值是这些列中的最后一个值。但是，如果使用下个行值进行后向填充，则不会发生这种情况。我们来看看具体情形：


store_items.fillna(method = 'backfill', axis = 1)

注意， .fillna() 方法不在原地地替换（填充） NaN 值。也就是说，原始 DataFrame 不会改变。你始终可以在 fillna() 函数中将关键字 inplace 设为 True，在原地替换 NaN 值。

我们还可以选择使用不同的插值方法替换 NaN 值。例如， .interpolate(method = 'linear', axis) 方法将通过 linear 插值使用沿着给定 axis 的值替换 NaN 值。我们来看一些示例：


store_items.interpolate(method = 'linear', axis = 0)

注意， store 3 中的两个 NaN 值被替换成了线性插值。但是注意， store 1 中的 NaN 值没有被替换掉。因为该 NaN 值是该列中的第一个值，因为它前面没有数据，因此插值函数无法计算值。现在，我们使用行值插入值：


store_items.interpolate(method = 'linear', axis = 1)

和我们看到的其他方法一样， .interpolate() 方法不在原地地替换 NaN 值。

Original: https://blog.csdn.net/Dream__Y/article/details/120404554
Author: 来日可期Dream
Title: Python数据可视化(Pandas_6_处理Nan的思路)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/742874/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Java中File文件操作类的详细使用介绍

文章目录 * – File类的使用 – + File的介绍 + File常用API + * 判断文件类型-获取文件信息 * 创建文件-删除文件功能 * 遍历…

Python 2023年11月6日
0039
JUC源码学习笔记6——ReentrantReadWriteLock

系列文章目录和关于我阅读此文需要有AQS独占和AQS共享的源码功底，推荐阅读： JUC源码学习笔记1——AQS独占模式和ReentrantLock JUC源码学习笔记2——AQS共…

Python 2023年10月13日
0041
爬虫–06：scrapy框架

Crawler-06: Scrapy Framework scrapy框架基础 * 一、scrapy框架的介绍二、scrapy框架的工作流程三、scrapy入门四、scrap…

Python 2023年10月2日
0040
Conda环境封装成docker镜像

背景：在我们开发完一个项目之后，为了使项目环境能够快速的转移，需要对环境进行打包封装。一般来说，我们有两条路可以选择。第一种，采用conda本身的命令，输出 yaml文件以及txt…

Python 2023年9月9日
0058
Python Pandas 数据分析工具透视表（pivot table）

数据透视表概念数据透视表是Excel中常用的工具，本片文章的重点不是认识数据透视表，所以找了一片文章，供大家参考。>>>Excel学习笔记-数据透视表透视表操…

Python 2023年8月7日
0072
vscode激活conda环境出错，安装poweshell7解决

关于给vscode安装powershell7并且激活conda环境 conda环境无法激活问题安装poweshell7 在vscode中设置效果 conda环境无法激活问题 C…

Python 2023年9月8日
0047
pytorch中.numpy()、.item()、.cpu()、.detach()及.data的使用

目录 * – + .numpy() + .item() + .cpu() + .detach()和.data（重点） .numpy() Tensor.numpy()将T…

Python 2023年8月2日
0050
python之pandas索引、DataFrame数据选取及filter介绍

a b c 0 0 2 4 1 6 8 10 2 12 14 16 3 18 20 22 4 24 26 28 5 30 32 34 6 36 38 40 1.1 单条件筛选 df…

Python 2023年8月6日
0044
使用Python的pandas库操作Excel

使用Python的pandas库操作Excel 最近因需要用Excel电子表格处理数据，使用了其它一些方式处理Excel文件数据，这是学习笔记的整理。 Excel2003及以前版：…

Python 2023年8月1日
0066
python创建线段_在绘图图中添加线段的简洁方法（使用python/jupyter笔记本）？

Plotly没有为此类图表提供内置的矢量化，因为它可以很容易地由您自己完成，请参阅我基于您提供的链接的示例：import pandas as pd import numpy as …

Python 2023年8月21日
0051
进阶版使用Scrapy框架爬取某网站螺蛳粉评论相关数据及其可视化分析（pyecharts）

文章目录前言开发工具一、数据爬取（Scrapy） * 1、配置scrapy框架 2、在cmd里面创建Scrapy项目工程 3、对spiders项目下的文件进行修改 &#821…

Python 2023年10月1日
0053
Django ORM 实现数据的多表增删改查

假定下面这些概念、字段与关系：作者模型：一个作者有姓名和年龄。作者详细模型：把作者的详情放到详情表，手机号，家庭住址信息。作者详情模型和作者模型之间是一对一的关系（one…

Python 2023年11月1日
0056
Flask框架——数据库操作命令（增删改查）

目录创建数据表添加数据插入单条数据插入多条数据查询数据全部查询精确查询模糊查询主键查询排序修改数据删除数据删除数据表上篇文章我们学习了F lask框架—…

Python 2023年8月9日
0073
我的第一篇随笔-Test

用于测试中文字符 English character posted @2022-05-28 12:54 HuStoking 阅读(8 ) 评论() 编辑 Original: ht…

Python 2023年6月12日
0065
pytorch基础知识

1、tensor和numpy array之间的相互转换 import numpy as np g = np.array([[1,2,3],[4,5,6]]) h = torch.t…

Python 2023年8月26日
0048
2023牛客寒假算法基础集训营1

题解 | #2023牛客寒假算法基础集训营1#_牛客博客 (nowcoder.net) //本人能力有限，以下只附上本人get到的题，其他参考以上链接或其他 A World Fin…

Python 2023年11月6日
0046

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python数据可视化(Pandas_6_处理Nan的思路)

大家都在看