pandas DataFrame.fillna()填充缺失函数的使用

2023年6月19日上午9:32 • 人工智能 • 阅读 60

Pandas中将如下类型定义为缺失值：
NaN: ”, ‘#N/A’, ‘#N/A N/A’, ‘#NA’, ‘-1.#IND’, ‘-1.#QNAN’,
‘-NaN’, ‘-nan’, ‘1.#IND’, ‘1.#QNAN’, ”, ‘N/A’, ‘NA’,
‘NULL’, ‘NaN’, ‘n/a’, ‘nan’, ‘null’，None
填充缺失值
pandas.DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None, kwargs)
value：用于填充的空值的值。
method： {‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None。定义了填充空值的方法，
pad / ffill表示用前面行/列的值，填充当前行/列的空值，
backfill / bfill表示用后面行/列的值，填充当前行/列的空值。
axis：轴。0或’index’，表示按行删除；1或’columns’，表示按列删除。
inplace：是否原地替换。布尔值，默认为False。如果为True，则在原DataFrame上进行操作，返回值为None。
limit**：int， default None。如果method被指定，对于连续的空值，这段连续区域，最多填充前 limit 个空值（如果存在多段连续区域，每段最多填充前 limit 个空值）。如果method未被指定，在该axis下，最多填充前 limit 个空值（不论空值连续区间是否间断）

downcast：dict, default is None，字典中的项为，为类型向下转换规则。或者为字符串”infer”，此时会在合适的等价类型之间进行向下转换，比如float64 to int64 if possible。

import pandas as pd
import numpy as np

dic = {"a": [8, np.nan, np.nan, 6, 9], "b": pd.Series([np.nan, 6, np.nan, np.nan, 10]), "c": ["qq", np.nan, np.nan, np.nan, 88]}  # DataFrame的col2的"B"和"C"行为nan
df = pd.DataFrame(dic)
print("df = \n", df, sep="")

pd.isna(df) 判断是否是nan
print("pd.isna(df) = \n", pd.isna(df), sep="")

pd.notna(df) 判断是否不是nan
print("pd.notna(df) = \n", pd.notna(df), sep="")

注：inplace默认为False，表示pd.fillna()返回一个新的DataFrame，原df不变（下面均设置为False）;如果设置为True则表示在原df上填充，返回None
1. df.fillna(value), df中的所有的nan都用单一的value替换并返回
df2 = df.fillna(10,
                method=None,
                axis=1,  # axis=0或"index":沿着行的向（纵向）; axis=1或"column":是沿着列的方向（横向）
                limit=2,   # 在没指定method的情况下，沿着axis指定方向上填充的个数不大于limit设定值
                inplace=False)  # 返回新的DataFrame
print("用10替换后的df2 = \n", df2)

2. 用字典的方式填充nan
dic2 = {"a": 0, "b": 1, "c": 2}  # 字典的key为column
df4 = df.fillna(dic2,
                axis=0,  # 用字典填充时，只能设置为0
                limit=2,  # 最多替换2个
                inplace=False)  # 返回新的DataFrame
print("用字典替换后的df = \n", df4)

3. 用DataFrame替换
df5 = pd.DataFrame(np.arange(10).reshape((5, 2)), columns=["a", "b"])
df6 = df.fillna(df5, inplace=False)  # df的"c"列在df5中不存在，所以不受影响
print("用DataFrame替换后的df = \n", df6)

2.  df.fillna(method="ffill")  method=ffill用前一个值替换nan，method=bfill用后一个值替换nan，如果nan没有前一个或者后一个值，nan将不会被替换
df3 = df.fillna(method="ffill",
                axis=0,  # axis=0或"index":沿着行的前一个或者后一个值替换nan; axis=1或"column":是沿着列的前一个或后一个值替换nan
                limit=1,  # 在指定method的情况下，连续填充的nan数量不超过limit设定值
                inplace=False)  # 返回新的DataFrame
print(df)
print("用前一个值替换后的df = \n", df3)

Original: https://blog.csdn.net/weixin_42118352/article/details/124993079
Author: M_qsqsqsq
Title: pandas DataFrame.fillna()填充缺失函数的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/638612/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

R数据分析：临床预测模型中校准曲线和DCA曲线的意义与做法

之前给大家写过一个临床预测模型：R数据分析：跟随top期刊手把手教你做一个临床预测模型，里面其实都是比较基础的模型判别能力discrimination的一些指标，那么今天就再进一步…

人工智能 2023年7月28日
0064
【论文理解】Batch Normalization论文中关于BN背景和减少内部协变量偏移的解读（论文第1、2节）

最近在啃Batch Normalization的原论文（Title：Batch Normalization: Accelerating Deep Network Training …

人工智能 2023年7月13日
0058
YOLO系列解读（上）—–YOLOv1到YOLOv3梳理

YOLO系列解读（上） 1. 背景介绍 2. 正文：Yolov1~Yolov3 * 2.1 Yolov1 – 2.1.1 Yolov1介绍 2.1.2 Yolov1 小…

人工智能 2023年7月12日
0057
多模态情感分析论文解读——CTFN模型

论文：CTFN: Hierarchical Learning for Multimodal Sentiment Analysis Using Coupled-Translation…

人工智能 2023年6月17日
0074
高斯滤波(Gauss filtering)

1.概念介绍高斯滤波是一种 线性平滑滤波，适用…

人工智能 2023年5月26日
00109
bp神经网络的训练方法,一文搞定bp神经网络

BP人工神经网络方法（一）方法原理人工神经网络是由大量的类似人脑神经元的简单处理单元广泛地相互连接而成的复杂的网络系统。理论和实践表明，在信息处理方面，神经网络方法比传统模式识别…

人工智能 2023年7月12日
0057
python 最小外接矩形笔记

目录最小外接矩形角度计算： opencv生成最小外接矩形：最小外接矩形修正版：最小外接矩形角度计算： rect = cv2.minAreaRect(merged_contou…

人工智能 2023年7月19日
0063
离散特征的转码选择【OneHotEncoder、LabelEncoder、OrdinalEncoder、get_dummies】

文章目录前言一、转码方案的选择二、如何实现 * 1 进行数值编码 2 OneHot编码总结前言最近在复盘一些机器学习项目时发现，在一些案例中对于离散特征转码方案的选择存…

人工智能 2023年7月16日
0067
基于改进EAST算法的文本检测

这段时间阅读研究了EAST算法以及在EAST算法上的改进并完成了复现运用到其他场景中去。当今社会已进入图像大数据时代，图像数量庞大种类繁多，包含大量的有用知识。从图像中高效、精准…

人工智能 2023年6月20日
0076
【自用】图像算法、计算机视觉面试问题及答案1.0

传统机器算法 2022.4.11 图像预处理图像预处理的主要目的是消除图像中无关的信息，恢复有用的真实信息，增强有关信息的可检测性、最大限度地简化数据，从而改进特征提取、图像分割…

人工智能 2023年6月20日
0065
综述：计算机视觉中的通道注意力机制

综述：计算机视觉中的通道注意力机制 * – 1. INTRODUCTION: – 2. 计算机视觉中的注意力机制 – + 2.1. 通用形式 +…

人工智能 2023年7月29日
0051
labelme的使用技巧

1 Windows版本 1.1 windows可以执行文件 1.1.1 labelme界面 ; 1.1.1.1 File 1.1.1.2 Edit ; 1.1.1.3 View 1…

人工智能 2023年7月12日
0043
中的邻域大小如何影响算法性能

问题：邻域大小对算法性能的影响邻域大小是指在算法中用于计算相似度或距离的数据点的数量。它在许多机器学习算法中扮演着重要的角色，包括聚类、分类和回归等领域。本文将深入探讨邻域大小对…

人工智能 2024年1月2日
0037
利用Anaconda3安装torch 1.7.1和torchvision0.8.2（简洁版）

操作系统：windows10IDE：Pycharmpython版本：anaconda Pyhon3.7pytorch版本：torch 1.7.1cuda版本：11.0cudnn版本…

人工智能 2023年7月23日
0064
知识图谱-汽车品牌知识图谱实战复现记录

写在前面：本人也是知识图谱”小白”，正在努力变”怪兽”，写文只为记录成长点滴，若有理解不合理亦或不到位的地方，敬请谅解。 1、环境配…

人工智能 2023年6月1日
0066
基于遗传算法车辆路径问题（VRP）

一、车辆路径问题简介与求解要求交通运输是国民经济的动脉，各种运输方式在日常运输营运管理工作中都要面对这样一个共同的问题：如何为载运工具(汽车，列车，轮船和飞机，统称为车辆)确定行…

人工智能 2023年6月24日
00142

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas DataFrame.fillna()填充缺失函数的使用

大家都在看