Pandas 中缺失值NaN的判断, 删除及替换

2023年6月19日下午9:38 • 人工智能 • 阅读 76

当使用pandas读取csv文件时，如果元素为空，则将其视为缺失值NaN（Not a Number, 非数字）。

使用dropna（）方法删除缺失值，使用fillna（）方法用其他值替换（填充）缺失值。

如果要提取包含缺失值的行或列，使用isnull（）方法确定元素是否缺失。

例如，读取并使用包含带read_csv的空格的csv文件。

import pandas as pd
import numpy as np
import math

df = pd.read_csv('./data/05/sample_pandas_normal_nan.csv')
print(df)

使用pandas.isnull() 检查所有缺失的值:

print(df.isnull())

print(pd.isnull(df))

检查 ‘name’ 列缺失的值:

print(df['name'].isnull())

Name: name, dtype: bool

也可以使用numpy.isnan() 和math.isnan() （但是需要分别导入NumPy和math）:

print(pd.isnull(df.at[0, 'point']))
print(np.isnan(df.at[0, 'point']))
print(math.isnan(df.at[0, 'point']))

在Pandas中，将None，np.nan，math.nan和pd.np.nan视为缺失值NaN

s_nan = pd.Series([None, np.nan, math.nan, pd.np.nan])
print(s_nan)

print(s_nan[0])
print(type(s_nan[0]))

print(s_nan.isnull())

使用dropna（）方法删除缺失值。

默认情况下，将返回新对象，并且不会更改原始对象，但是参数inplace = True会更改原始对象本身。

print(df)

如果指定了参数how =’all’，则将删除所有缺少值的行。

print(df.dropna(how='all'))

如果设置axis = 1，则将删除所有缺少值的列。

print(df.dropna(how='all', axis=1))

删除所有缺少值的行和列的数据:

df2 = df.dropna(how='all').dropna(how='all', axis=1)
print(df2)

基于上面删除所有缺少值的行和列的数据df2 :

print(df2)

如果指定了参数how =’any’，则将删除至少包含一个缺失值的行。默认值为how =’any’。

print(df2.dropna(how='any'))

print(df2.dropna())

如果设置axis = 1，则将删除包含至少一个缺失值的列将被删除。

print(df2.dropna(how='any', axis=1))

通过在参数thresh中指定数字，可以根据不缺少值的元素数量删除行和列。

例如，如果thresh = 3，则保留包含三个或更多个不丢失值的元素的行，并删除其他行（包含两个或更多个不丢失值的元素的行）。

print(df.dropna(thresh=3))

如果axis= 1，则应用于列。

print(df.dropna(thresh=3, axis=1))

如果要基于特定的行/列删除，请在列表的参数子集中指定要定位的行/列标签。由于它必须是列表，因此请至少指定一个目标，例如subset = [‘name’]。默认情况下，子集指定的列中缺少值的行将被删除。

print(df.dropna(subset=['age']))

如果指定了多列，则默认为删除所有缺少指定值的行。

print(df.dropna(subset=['age', 'state']))

如果参数how =’all’，则仅删除所有指定列均缺少值的行。

print(df.dropna(subset=['age', 'state'], how='all'))

可以使用fillna（）方法将缺失值替换为任意值。

默认情况下，将返回新对象，并且不会更改原始对象，但是参数inplace = True会更改原始对象本身。

print(df)

如果指定要用参数替换的值，则所有缺少的值NaN都将替换为该值。

print(df.fillna(0))

将字典指定为参数时，每列将替换一个不同的值。字典键是列标签（列名），而值是要替换的值。未指定的列仍缺少值NaN。

print(df.fillna({'name': 'XXX', 'age': 20, 'point': 0}))

不仅可以指定字典，还可以指定pandas.Series。具有与pandas.Series中的标签匹配的列标签（列名）的列中缺少的值将替换为pandas.Series值。与pandas.Series标签不对应的列仍然缺少值。

s_for_fill = pd.Series(['ZZZ', 100], index=['name', 'age'])
print(s_for_fill)

print(df.fillna(s_for_fill))

可以使用mean（）方法计算每列的平均值。结果是pandas.Series。缺失值将被排除并计算。

print(df.mean())

如果将此pandas.Series指定为fillna（）的参数，则如上所述，将相应列中的缺失值替换为平均值。

print(df.fillna(df.mean()))

同样，如果要替换中位数，请使用中位数（）方法。在偶数的情况下，两个中心值的平均值是中值。

print(df.fillna(df.median()))

通过使用method参数，可以替换之前和之后的值，而不是指定的值。如果method =’ffill’，它将被以前的值替换；如果method =’bfill’，将被后面的值替换。对于时间序列数据很有用。

print(df.fillna(method='ffill'))

print(df.fillna(method='bfill'))

使用参数limit，可以指定连续替换的最大数量。

print(df.fillna(method='bfill', limit=1))

参考博客:

Original: https://blog.csdn.net/u012856866/article/details/122303273
Author: 酒酿小圆子～
Title: Pandas 中缺失值NaN的判断, 删除及替换

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640226/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Metaminer：TCGA新玩法，代谢亚型（metabolic subtypes）分类

引言：挖掘TCGA数据库的文章在PubMed中有超过10000篇，可以说基本被我们玩的差不多了，什么肿瘤亚型，生存预后，免疫浸润，等等，在你找不到新思路的时候，不妨来看看这篇有关…

人工智能 2023年7月2日
0080
【YOLOV4】(14) 视频目标检测，预测阶段 TensorFlow 完整代码

大家好，研究了两天终于把 YOLOV4 预测阶段的完整代码复现出来了。本文只用函数方法，最直观的向大家展示代码。强烈建议大家在阅读本文之前，先看以下文章：（1）YOLOV4…

人工智能 2023年5月26日
00111
Semi-Supervised Semantic Segmentation with Cross-Consistency Training论文笔记

文章标题：Semi-Supervised Semantic Segmentation with Cross-Consistency Training文章地址：https://arx…

人工智能 2023年6月21日
0083
Opencv图像处理图像噪点与降噪形体学变换

图像阈值进行图像阈值处理主要的使用图像是二值图。例如如果需要讲灰度图转换为二值图，比如我们感兴趣的区域灰度在[128,256]，不感兴趣的的范围灰度值在[0,127]，此时我们…

人工智能 2023年5月28日
0078
双目立体视觉(一) 基本原理和步骤

目录一、双目立体视觉系统的四个基本步骤二、各步骤原理 1、相机标定 2、立体校正 3、立体匹配一、双目立体视觉系统的四个基本步骤相机标定主要包含两部分内容: 单相机的内参标…

人工智能 2023年6月18日
0072
INDEMIND荣登「AI中国」机器之心2021人工智能年度榜单

1月17日，2021「AI中国」机器之心人工智能年度奖项正式揭晓，INDEMIND从近千家参与企业中脱颖而出，荣登「AI中国」机器之心中国 · 最具商业价值解决方案TOP 30榜单…

人工智能 2023年7月17日
0065
Pandas数据分析—groupby分组统计

13.Pandas中groupby分组统计文章目录 13.Pandas中groupby分组统计前言一、分组使用聚合函数做数据统计 * 1.准备数据二、遍历groupby的结…

人工智能 2023年7月16日
0071
数字图像处理学习总结(2)：频率域滤波

数字图像处理学习总结(2)：频率域滤波文章目录数字图像处理学习总结(2)：频率域滤波前言一、频率域基本知识 * 1.1 傅里叶变换 1.2 取样定理 1.3 混淆 1….

人工智能 2023年6月18日
00106
语义分割的评价指标——PA(像素准确率)、CPA(类别像素准确率)、MPA(类别平均像素准确率)、IoU(交并比)、MIoU(平均交并比)详细总结

语义分割是像素级别的分类，其常用评价指标：像素准确率（Pixel Accuracy，PA）、类别像素准确率（Class Pixel Accuray，CPA）、类别平均像素准确率（…

人工智能 2023年5月26日
0075
自动驾驶之轨迹规划1——算法综述

1. 背景概述本文立足于智能车领域的轨迹规划，根据自己的整理和理解输出，权当做一篇学习笔记。这篇只是综述，每种算法的详细过程会在别的篇幅整理出来。首先解释一下一些基本概念：规划（…

人工智能 2023年6月10日
0084
LeetCode 752. 打开转盘锁

今天在看bfs模板的时候看到了一个题目，解密码锁的这道题，半天也没啥思路和行动力，看了人家的java版的注释，花了40分钟才搞懂这个题，也真的是菜。写完之后发现这个题目还可以去优化…

人工智能 2023年6月29日
00104
SVM算法详解

Support Vector Machine 终于，我们来到了SVM。SVM是我个人感觉机器学习中最优美的算法，这次我们要来非常细致地介绍。SVM是一类有监督的分类算法，它的大致思…

人工智能 2023年6月16日
0073
tensorflow基础之——tf.feature_column, tf.estimator, pre_estimator

1. tf feature_column的使用 1.1 构造训练数据集 1.2 对训练数据集的每个特征有一个大致的了解 1.3 使用feature_columns将离散特征进行编码…

人工智能 2023年5月26日
0067
论文研读笔记（一）——多智能体强化学习的相对分布编队和避障

Relative Distributed Formation and Obstacle Avoidance with Multi-Agent Reinforcement Learn…

人工智能 2023年6月15日
0088
基于残差网络的CNN模型进行人脸识别实战实战项目

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月29日
0058
TensorFlow2和keras详细安装教程

环境配置：系统：win10 1、安装 Anaconda，安装教程请自行百度。这里我使用的版本是： C:\Users\HaiBin>conda –version conda…

人工智能 2023年5月23日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas 中缺失值NaN的判断, 删除 及 替换

大家都在看

Pandas 中缺失值NaN的判断, 删除及替换