0907—Pandas 数据清洗过程中空值的删除处理

2023年8月7日上午9:58 • Python • 阅读 38

Pandas 数据清洗过程中空值的删除处理

应用 Pandas DataFrame 类方法 dropna 对数据集中的空值按照给定的参数进行删除处理。

DataFrame.dropna( self, axis: ‘Axis’ = 0, how: ‘str’ = ‘any’, thresh=None, subset: ‘IndexLabel’ = None, inplace: ‘bool’ = False, )

重要参数解释

axis: 选择处理的轴方向，默认是0轴，即index方向，以行记录为处理单元；如果选择为1轴，即columns方向，以列为处理单元。阅读下面的简单案例能更深刻的理解。
how: 默认为 any，即在处理的单元中只要存在NaN值就删除；如果选择 how=’all’,则处理的单元中所有的值全是NaN 才删除。
thresh:可选参数，不常用。需要处理单元中有多少非NaN值，该处理单元才不被删除。
subset:判断的依据为子列。
inplace:默认为False，即不改变数据集本身;当选择inplace=True，改变数据集本身。

运行环境为 Jupyter notebook

一引入包

%matplotlib notebook
import numpy as np
import pandas as pd

二构造试验数据

df = pd.DataFrame(np.arange(24).reshape(6,4),columns=['A','B','C','D'])
df.iloc[2,2:]=np.nan
df.loc[4,'B']=np.nan
df.loc[0,'C']=np.nan
df

    A   B     C   D
0   0   1.0 NaN 3.0
1   4   5.0 6.0 7.0
2   8   9.0 NaN NaN
3   12  13.0    14.0    15.0
4   16  NaN 18.0    19.0
5   20  21.0    22.0    23.0

三基于上述数据的操作

&#x7EDF;&#x8BA1;&#x6BCF;&#x5217;&#x4E2D; NaN&#x7684;&#x6570;&#x91CF;
df.isna().sum()

A    0
B    1
C    2
D    1
dtype: int64

&#x9ED8;&#x8BA4;&#x4EE5;0&#x8F74;&#xFF0C;&#x5373;index&#x65B9;&#x5411;&#xFF0C;&#x4EE5;&#x884C;&#x8BB0;&#x5F55;&#x4E3A;&#x5904;&#x7406;&#x5355;&#x5143;&#xFF0C;&#x5982;&#x679C;&#x4E00;&#x884C;&#x4E2D;&#x5B58;&#x5728; NaN&#x503C;&#xFF0C;&#x5C31;&#x5220;&#x9664;&#x8BE5;&#x884C;
df1 = df.dropna()  #&#x6216;  df1 = df.dropna(axis=0,how='any')
df1

    A    B      C       D
1   4   5.0 6.0 7.0
3   12  13.0    14.0    15.0
5   20  21.0    22.0    23.0

&#x4EE5;1&#x8F74;&#xFF0C;&#x5373;columns&#x65B9;&#x5411;&#xFF0C;&#x4EE5;&#x5217;&#x4E3A;&#x5904;&#x7406;&#x5355;&#x5143;&#xFF0C;&#x5982;&#x679C;&#x4E00;&#x5217;&#x4E2D;&#x5B58;&#x5728; NaN&#x503C;&#xFF0C;&#x5C31;&#x5220;&#x9664;&#x8BE5;&#x5217;
df2 = df.dropna(axis=1, how='any')
df2

    A
0   0
1   4
2   8
3   12
4   16
5   20

&#x9ED8;&#x8BA4;&#x4EE5;0&#x8F74;&#xFF0C;&#x5373;index&#x65B9;&#x5411;&#xFF0C;&#x4EE5;&#x884C;&#x8BB0;&#x5F55;&#x4E3A;&#x5904;&#x7406;&#x5355;&#x5143;&#xFF0C;&#x5982;&#x679C;&#x4E00;&#x884C;&#x4E2D;'C'&#x6216;'D'&#x5217;&#x5B58;&#x5728; NaN&#x503C;&#xFF0C;&#x5C31;&#x5220;&#x9664;&#x8BE5;&#x884C;
df3 = df.dropna(axis=0,how='any',subset=['C','D'])
df3

    A    B    C    D
1   4   5.0 6.0 7.0
3   12  13.0    14.0    15.0
4   16  NaN 18.0    19.0
5   20  21.0    22.0    23.0

&#x4EE5;1&#x8F74;&#xFF0C;&#x5373;columns&#x65B9;&#x5411;&#xFF0C;&#x4EE5;&#x5217;&#x4E3A;&#x5904;&#x7406;&#x5355;&#x5143;&#xFF0C;&#x5982;&#x679C;&#x4E00;&#x5217;&#x4E2D;&#x7684;&#x7B2C;3&#x6216;4&#x884C;&#x4E2D;&#x5B58;&#x5728; NaN&#x503C;&#xFF0C;&#x5C31;&#x5220;&#x9664;&#x8BE5;&#x5217;
df4 = df.dropna(axis=1,how='any',subset=[3,4])
df4

    A     C  D
0   0   NaN 3.0
1   4   6.0 7.0
2   8   NaN NaN
3   12  14.0    15.0
4   16  18.0    19.0
5   20  22.0    23.0

&#x9ED8;&#x8BA4;&#x4EE5;0&#x8F74;&#xFF0C;&#x5373;index&#x65B9;&#x5411;&#xFF0C;&#x4EE5;&#x884C;&#x8BB0;&#x5F55;&#x4E3A;&#x5904;&#x7406;&#x5355;&#x5143;&#xFF0C;&#x5982;&#x679C;&#x4E00;&#x884C;&#x4E2D;&#x975E;NaN&#x503C;&#x6570;&#x91CF;&#x5C0F;&#x4E8E;3&#xFF0C;&#x5C31;&#x5220;&#x9664;&#x8BE5;&#x884C;
df5 = df.dropna(axis=0,how='any',thresh=3)
df5

   A     B      C       D
0   0   1.0 NaN 3.0
1   4   5.0 6.0 7.0
3   12  13.0    14.0    15.0
4   16  NaN 18.0    19.0
5   20  21.0    22.0    23.0

四重新构造测试数据（测试all的操作）

df = pd.DataFrame(np.arange(24).reshape(6, 4), columns=['A', 'B', 'C', 'D'])
df.iloc[2, :] = np.nan
df.loc[4, 'B'] = np.nan
df.loc[:, 'C'] = np.nan
df

   A       B       C        D
0   0.0 1.0 NaN 3.0
1   4.0 5.0 NaN 7.0
2   NaN NaN NaN NaN
3   12.0    13.0    NaN 15.0
4   16.0    NaN NaN 19.0
5   20.0    21.0    NaN 23.0

五有关操作

df.isna().sum()

A    1
B    2
C    6
D    1
dtype: int64

df1 = df.dropna(axis=0,how='all')
df1

    A       B       C       D
0   0.0 1.0 NaN 3.0
1   4.0 5.0 NaN 7.0
3   12.0    13.0    NaN 15.0
4   16.0    NaN NaN 19.0
5   20.0    21.0    NaN 23.0

df2 = df.dropna(thresh=3)
df2

    A       B       C       D
0   0.0 1.0 NaN 3.0
1   4.0 5.0 NaN 7.0
3   12.0    13.0    NaN 15.0
5   20.0    21.0    NaN 23.0

df3=df.dropna(subset=['B'])
df3

    A       B       C       D
0   0.0 1.0 NaN 3.0
1   4.0 5.0 NaN 7.0
3   12.0    13.0    NaN 15.0
5   20.0    21.0    NaN 23.0

df4 = df.dropna(axis=1,how='all')
df4

   A       B        D
0   0.0 1.0 3.0
1   4.0 5.0 7.0
2   NaN NaN NaN
3   12.0    13.0    15.0
4   16.0    NaN 19.0
5   20.0    21.0    23.0

2022-09-07

Original: https://blog.csdn.net/gmriwyf/article/details/126745829
Author: gmriwyf
Title: 0907—Pandas 数据清洗过程中空值的删除处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739716/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

机器学习实战-朴素贝叶斯

1.优缺点优点: 在数据较少的情况下仍然有效，可以处理多类别问题。缺点: 对于输入数据的准备方式较为敏感。适用数据类型:标称型数据 2.朴素贝叶斯的一般过程 (1) 收集数…

Python 2023年10月31日
0051
Python环境安装分享（附教程）

前言一、安装python运行环境1.官网https://www.python.org下载安装包.exe2.安装python二、python模块下载1.配置pip环境变量2.下载py…

Python 2023年8月15日
0054
python找房源_Python租房信息分析！找到最适合自己的房源信息！

file_data.shape 空值处理 file_data = file_data.dropna file_data.shape 删除空值，最好先做判断空值处理 file_da…

Python 2023年8月8日
0075
django rest framework之用户登录

今日内容后端可以将随机字符串通过返回值的形式给到前端。前端再写到浏览器的cookie。用户要拿个人资料信息，要将浏览器中的cookie里面的随机字符串给前端，由前端加在url上…

Python 2023年6月12日
0059
Anaconda和pycharm

虚拟环境介绍在介绍anaconda和pycharm之前先介绍一下虚拟环境是个什么样的东西。人生活在地球上是需要一定的环境条件的，只有环境适宜居住，人类才能够正常生活。虚拟环境…

Python 2023年8月2日
0043
MxNet（GPU版本）安装及相关配置（CUDA，CuDNN，Graphviz，d2l，虚拟环境配置）及最终建议

深度学习框架MxNet配置（GPU版本） 1.对应镜像：https://mirrors.aliyun.com/pypi/simple/mxnet/ 找到与自己电脑Python版本对…

Python 2023年8月27日
0077
深度学习之YOLOv5实践应用（3-1）人头检测模型

参考：基于yolov5训练人头检测模型 – 知乎一、数据集下载地址：链接：链接：https://pan.baidu.com/s/1xBph3IBXKnArVtM…

Python 2023年10月27日
0039
【Java集合进阶】Collection 体系集合详解（ArrayList，LinkedList，HashSet，TreeSet…）

1. ArrayList: – ArrayList_是基于数组实现的动态数组，可以自动扩容，可以存储任何对象类型。 – 数组的优点是可以随机访问元素，缺点是…

Python 2023年11月7日
0044
python绘图条形图_用matplotlib在python中绘制漂亮的条形图

我在下面写了一个python代码来为我的数据绘制一个条形图。我调整了参数，但未能使其美观(见附图)。在 python代码如下：def plotElapsedDis(axis, jv…

Python 2023年9月6日
0042
python换循环颜色_python – 获取matplotlib颜色循环

当然，这样做会。 rainbow import matplotlib.pyplot as plt import numpy as np x = np.linspace(0,2*np…

Python 2023年9月7日
0038
python模块

python模块是一个py文件，一个模块只会被导入一次 python在编译或安装的时候会确定搜索路径，使用import语句的时候，python解释器就从搜索路径（即一系列目录名）中…

Python 2023年5月24日
0038
Python学习十二：Flask框架

文章目录一、Flask 简介 * 1.1 安装虚拟环境 – 1.1.1 安装Virtualenv 1.1.2 创建虚拟环境 1.1.3 激活虚拟环境 1.2 安装Fl…

Python 2023年8月12日
0048
jupyter notebook中使用python的matplotlib模块常见图形种类及意义，绘制散点图，柱状图，直方图，饼图

目录标题常见图形种类及意义 * 常见方法散点图(scatter) * 散点图绘制柱状图(bar) * 柱状图绘制 – 需求1-对比每部电影的票房收入需求2-如何…

Python 2023年8月31日
0068
浅入浅出 1.7和1.8的 HashMap

前言 HashMap 是我们最最最常用的东西了，它就是我们在大学中学习数据结构的时候，学到的哈希表这种数据结构。面试中，HashMap 的问题也是常客，现在卷到必须答出来了，是必…

Python 2023年10月16日
0050
在conda环境下安装PyTorch+PyTorch Geometric（Pyg）

关于cuda和cudnn 不需要按网上教程去官网下载，也不需要手动在conda环境内安装。直接按PyTorch官网命令安装PyTorch即可，cuda和cudnn会自动按你选择的版…

Python 2023年9月7日
0056
python中plot的参数_python plot函数参数 python matplotlib数据作图

Python matplotlib 画曲线图可以指定y轴具体值吗？不喧，不吵，静静地守着岁月；不怨，不悔，淡淡的对待自己。 y轴默认会有数值，你是需要自定义吗可以使用yticks…

Python 2023年9月6日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

0907—Pandas 数据清洗过程中空值的删除处理

一 引入包

二 构造试验数据

三 基于上述数据的操作

四 重新构造测试数据（测试all的操作）

五 有关操作

大家都在看

一引入包

二构造试验数据

三基于上述数据的操作

四重新构造测试数据（测试all的操作）

五有关操作