缺失值处理的常用方法：判断、查找、填充及删除

2023年8月26日上午5:50 • Python • 阅读 95

处理缺失值流程与方法汇总：

1.读取数据

import numpy as np
data = np.genfromtxt("test.txt",delimiter=',')
print(type(data))
print(data)


<class 'numpy.ndarray'>
[[  1. 100.]
 [  2.  90.]
 [  3.  nan]
 [  4.  70.]
 [  5.  nan]
 [  6.  70.]
 [  7.  85.]
 [  8.  75.]
 [  9.  nan]]

从上面输出结果可以看出该数据是9行2列，其中第二列存在3个缺失值
说明：

np.nan不是空对象。
对列表中的nan进行操作时不能用”==np.nan”来判断。只能用np.isnan()来操作。
np.nan的数据类型是float。

2.判断数据中是否有空值

利用numpy：np.isnan()函数

np.isnan(data)


array([[False, False],
       [False, False],
       [False,  True],
       [False, False],
       [False,  True],
       [False, False],
       [False, False],
       [False, False],
       [False,  True]])

从输出结果可以看出，非空值返回False，空值返回True

np.isnan(data[:,1])
np.isnan(data[2,:])

利用pandas：isnull()函数

1.首先转换数据类型，因为上面读取数据类型为

import pandas as pd
data_pd = pd.DataFrame(data)
print(type(data_pd))

output
<class 'pandas.core.frame.DataFrame'>

2.进行isnull()操作

data_pd.isnull()     #效果等同于np.isnan()函数，同样会返回布尔值

输出

data_pd[0].isnull()       #判断第0列是否存在空值（下标从0开始）
data_pd[1].isnull()       #判断第1列是否存在空值（下标从0开始）
data_pd[[0,1]].isnull()   #判断第0列和第1列是否存在空值（下标从0开始），效果等同于data_pd.isnull()

3.统计空值/非空值数量

1.统计每列的空值数量

data_pd.isnull().sum()  # 统计每列的空值数量

#output 第0列0个空值，第1列3个空值
0    0
1    3
dtype: int64

2.统计每列的非空值数量

data_pd.notnull().sum()

#output
0    9
1    6
dtype: int64

3.其他相关操作

data_pd.count()        # 统计所有列的非空值数量
data_pd[1].count()     # 第1列非空数量（下标从0开始）
data_pd.count(axis=1)  # 每行非空值数量，axis=1

4.根据空值筛选数据

1.筛选出data_pd中存在空值的行

data_pd[data_pd.isnull().values==True]

输出

2.筛选出第1列为空的所有行（下标从0开始）

data_pd[data_pd[1].isnull()]

输出

5.查找空值索引

np.where(np.isnan(data_pd))       # data_pd中空值所在的行索引及列索引
np.where(np.isnan(data_pd[1]))    # data_pd中第1列空值所在的行索引

6.填充空值fillna()函数、replace()方法（里面填充的是键值对结构）

用指定的数字来填充
data_pd.fillna(0)   # 用0来填充data_pd中的空值

用指定的函数统计值来填充
data_pd.fillna(data_pd.mean())    # 用data_pd中数据的平均值来填充空值
data_pd.fillna(data_pd.mean()[1]) #指定用第1列数据均值来填充data_pd中空值
data_pd[1]=data_pd[1].fillna(data_pd[1].mean()) #指定用第1列数据均值来填充第1列数据中空值
data_pd.fillna(data_pd.sum())   # 用data_pd中数据的和来填充空值

使用插值法填充
data=np.genfromtxt('test.txt',delimiter=',')
data=pd.DataFrame(data)
data[1] = data[1].interpolate()

用字典来填充
values = {'0':6, '1': 9}   # 0列空值用6填充，1列空值用9填充
data_pd.fillna(value=values)

用指定字符串来填充空值
data_pd.fillna("null")

#上下数据补全
不同的填充方式{'backfill', 'bfill', 'pad', 'ffill', None}
每列的空值，用其列下方非空数值填充
data_pd.fillna(method="backfill")
data_pd.fillna(method="bfill")   # 同backfill
每列的空值，用其所在列上方非空数值填充，若上方没有元素，保持空值
data_pd.fillna(method="ffill")
data_pd.fillna(method="pad")     # 同 ffill

#limit参数设置填充空值的最大个数
data_pd.fillna(0,limit=1)  # 每列最多填充1个空值，超过范围的空值依然为空

#inplace参数空值是否修改原数据data_pd
data_pd.fillna(0,inplace=True)  # inplace为true，将修改作用于原数据

参考：如何处理numpy数组中的空值
 Pandas+Numpy 数据中空值的处理操作：判断、查找、填充及删除

Original: https://blog.csdn.net/qq_41238751/article/details/126263672
Author: 越努力い越幸运
Title: 缺失值处理的常用方法：判断、查找、填充及删除

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/759976/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

数据清理

学习目标： 1、熟悉常见数据问题的处理方式 2、掌握对缺失值的检测与处理 3、掌握重复值的检测与处理数据清理主要是通过一定的检测与处理方法，将”脏”数据清…

Python 2023年8月7日
0055
mybatis-plugin插件执行原理

mybatis-plugin插件执行原理今天主要是在看mybatis的主流程源码，其中比较感兴趣的是mybatis的plugin功能，这里主要记录下mybatis-plugin的…

Python 2023年10月18日
0035
爬虫：python如何获得天气数据

1.先安装以下库 import requests from bs4 import BeautifulSoup as bs import pandas as pd from pand…

Python 2023年8月1日
0049
【Python-自动化】paramiko模块

文章目录运维自动化Python 一、模块介绍二、模块应用 * 1.使用paramiko模块，通过ssh协议连接服务器 2.解决首次连接known_hosts问题 3、执行命令e…

Python 2023年8月1日
0071
kaggle入门之pd.DataFrame

看各种kaggle的代码时，发现pd.DataFrame是常用的数据结构，要想快速浏览、熟练修改各种kaggle代码，首先入门的应该是pd.DataFrame这个结构，下面记录pd…

Python 2023年8月7日
0040
第二章使用 matplotlib 绘制条形图

系列文章目录第一章使用 matplotlib 绘制折线图第二章使用 matplotlib 绘制条形图第三章使用 matplotlib 绘制直方图第四章使用 matplot…

Python 2023年9月7日
0045
mongodb使用_遍历列表中的元素，作为变量，循环修改mongodb中的字段

一、问题描述: 需要将工作界面上的一些已经离职的用户状态改为失效，并备注为离职二、需要准备/拿到手的工具/条件/数据: 1.已离职人员名单(excel格式) 2.任意mongod…

Python 2023年6月9日
0070
python Numpy 的基础用法以及 matplotlib 基础图形绘制

python Numpy 的基础用法以及 matplotlib 基础图形绘制 1. 环境搭建 1.1 Anaconda anaconda 集成了数据分析，科学计算相关的所有常用…

Python 2023年8月25日
0040
conda 导出环境文件的方法（文件方法）

conda 导出环境文件的方法（文件方法）1、导出环境conda env export > environment.yml2、在新机器上重现环境conda env creat…

Python 2023年9月7日
0086
Spring Cloud:微服务基础知识

✨ Spring Cloud:微服务基础知识一、系统架构演变 * 1. 单体应用架构 2. 垂直应用架构 3. 分布式架构 4. SOA架构 – 4.1 SOA概念 …

Python 2023年9月15日
0047
【机器学习】李宏毅——Explainable ML(可解释性的机器学习)

在前面的学习之中，我们已经学习了很多的模型，它能够针对特定的任务，接受我们的输入并产生目标的输出。但我们并不满足于此，我们甚至希望机器告诉我们，它是如何得到这个答案的，而这就是可…

Python 2023年10月28日
0039
Linux下python安装与pip常用命令

1、安装python3.9.13 yum install -y zlib-devel bzip2-devel libffi-devel openssl-devel ncurses-…

Python 2023年8月26日
0055
python贪吃蛇开发_Python：游戏：贪吃蛇（附源码）

“””贪吃蛇””” importrandomimportsysimporttimeimportpygamef…

Python 2023年9月24日
0056
fig = plt.figure(),plt.subplots()的作用

参考多个知乎回答matplotlib刨根问底系列之二：再谈Figure和Axes的区别 – 有风吹过山峰的文章 – 知乎python matplotlib中…

Python 2023年8月3日
0047
Windows下NCNN环境配置（VS2019）

Windows下NCNN环境配置（VS2019）本文修改自：Windows下ncnn环境配置（VS2019）我成功编译的库下载地址：https://download.csdn.n…

Python 2023年10月27日
0060
main.py: error: the following arguments are required:

报错 “main.py: error: the following arguments are required:” 1.首先查看报错信息如图下图所示 m…

Python 2023年8月2日
0062

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30