Pandas常见方法（2）-pandas对数据的预处理

2023年7月8日上午2:30 • 人工智能 • 阅读 46

说明：本blog基于python3， pandas 1.3.5版本

本文主要介绍如何对数据做预处理，包括 缺失值过滤、缺失值补全、数据转换（重复值删除，数据映射、数据替换）、简单运算自动对齐与函数处理、统计运算和排序，共5个部分。并附有代码实例。
【注：本文所有部分根据pandas中的基础数据结构进行分类讲解，Series 和 DataFrame】

1.1 缺失值过滤

使用dropna方法，
公式： DataFrame.dropna(axis = 0/1, how = “all”, thresh =按衡量标准删除的最小Nan值个数, subset = [“目标列”])

代码如下

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, np.nan, np.nan], [3,5,7]])
print(a)

a1 = a.dropna(axis = 0)
print(("删除所有包含Nan值的行 \n{}").format(a1))

a2 = a.dropna(axis = 1)
print(("删除所有包含Nan值的列 \n{}").format(a2))

a3 = a.dropna(how = "all", axis = 0)
print(("删除行元素全为Nan值的行 \n{}").format(a3))

结果如下

 0    1    2
0  1.0  2.0  NaN
1  NaN  2.0  3.0
2  NaN  NaN  NaN
3  3.0  5.0  7.0
删除所有包含Nan值的行
     0    1    2
3  3.0  5.0  7.0
删除所有包含Nan值的列
Empty DataFrame
Columns: []
Index: [0, 1, 2, 3]
删除行元素全为Nan值的行
     0    1    2
0  1.0  2.0  NaN
1  NaN  2.0  3.0
3  3.0  5.0  7.0

1.2 缺失值补全

DataFrame.fillna(字典形式的按列填充/常数值, method = “ffill”/”bfill”, axis = 0/1, inplace = True/False)
【注：axis = 0代表按列填充，axis = 1代表按行填充；这里的0，1与pandas其他方法的0，1不同！！！】

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, np.nan, np.nan], [3,5,7]])
print(a)

a.fillna(method = "bfill", inplace= True, axis = 0)
print("填充后的DataFrame：")
print(a)

结果如下，

     0    1    2
0  1.0  2.0  NaN
1  NaN  2.0  3.0
2  NaN  NaN  NaN
3  3.0  5.0  7.0
填充后的DataFrame：
     0    1    2
0  1.0  2.0  3.0
1  3.0  2.0  3.0
2  3.0  5.0  7.0
3  3.0  5.0  7.0

2.1 某列重复值删除

公式：DataFrame.drop_duplicates(subset = 列索引组成的列表,inplace = True/False)

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, np.nan, np.nan], [3,5,7]])
print(a)
a.drop_duplicates(subset = [1], inplace = True)
print(a)

结果如下

     0    1    2
0  1.0  2.0  NaN
1  NaN  2.0  3.0
2  NaN  NaN  NaN
3  3.0  5.0  7.0
     0    1    2
0  1.0  2.0  NaN
2  NaN  NaN  NaN
3  3.0  5.0  7.0

2.2 某列/某些列数据映射

公式：原DataFrame[新列索引] = Series.map(一个字典类型的映射/一个函数)
假设我们对列索引为0的列做map操作，形成一个新列，命名为”map_relationship”个DataFrame，代码如下

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, 20, np.nan], [3,5,7]])
print(a)

map_relationship = {1:"a", 2:"b",3:"c", 4:"d"}

a["map_relationship"] = a[0].map(map_relationship)
print(a)

结果如下

     0   1    2
0  1.0   2  NaN
1  NaN   2  3.0
2  NaN  20  NaN
3  3.0   5  7.0
     0   1    2 map_relationship
0  1.0   2  NaN                a
1  NaN   2  3.0              NaN
2  NaN  20  NaN              NaN
3  3.0   5  7.0                c

2.3 某列数据替换

公式： DataFrame[列索引].replace(被替换值= 替换值, inplace = True/False)，
【注：只要inplace参数为True，则返回DataFrame的”视图”】

代码如下

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, 20, np.nan], [3,5,7]])
print(a)
###只对列索引为0的列中的Nan值做替换，替换为999
a[0].replace(np.nan, 999, inplace = True)
print(a)

结果如下

     0   1    2
0  1.0   2  NaN
1  NaN   2  3.0
2  NaN  20  NaN
3  3.0   5  7.0
       0   1    2
0    1.0   2  NaN
1  999.0   2  3.0
2  999.0  20  NaN
3    3.0   5  7.0

2.4 DataFrame所有数据替换

公式： DataFrame.replace(被替换值= 替换值, inplace = True/False)，
【注：只要inplace参数为True，则返回DataFrame的”视图”】

代码如下

import pandas as pd
import numpy as np

a = pd.DataFrame([[1,2,np.nan],[np.nan,2,3], [np.nan, 20, np.nan], [3,5,7]])
print(a)
###对所有元素中的Nan值做替换，替换为999
a.replace(np.nan, 999, inplace = True)
print(a)

结果如下

     0   1    2
0  1.0   2  NaN
1  NaN   2  3.0
2  NaN  20  NaN
3  3.0   5  7.0
       0   1      2
0    1.0   2  999.0
1  999.0   2    3.0
2  999.0  20  999.0
3    3.0   5    7.0

遇到离散型数据，我们通常采用分箱（即分段）或计算分位数的办法从统计学角度整体认知样本数据

分箱方法公式：pd.cut(必须为一维数组, bins = 分段区间点组成的列表, labels = 每段区间的组名组成的列表, ordered = True/False)
【注：其中分段区间默认包含左右两个边界点；如果需要取掉右边界，使用right = False】

代码如下

import pandas as pd
import numpy as np

a = pd.Series([1,2,10,3,55,200,70,8,93,67])
print(a)
b = pd.cut(a,bins = [-10,50,150,500], labels = ["small","middle","big"], ordered = True)
print(b)

结果如下

0      1
1      2
2     10
3      3
4     55
5    200
6     70
7      8
8     93
9     67
dtype: int64
0     small
1     small
2     small
3     small
4    middle
5       big
6    middle
7     small
8    middle
9    middle
dtype: category
Categories (3, object): ['small' < 'middle' < 'big']

分位数公式：新变量 = pd.qcut(几分位数就填几)
接下来，我们对上边生成的a计算25%，50%，75%，100%共四个分位数;并计算每个分位区间的样本数
代码如下

c = pd.qcut(a, 4)
print(c)
d = c.value_counts()
print(d)

结果如下

0     (0.999, 4.25]
1     (0.999, 4.25]
2      (4.25, 32.5]
3     (0.999, 4.25]
4     (32.5, 69.25]
5    (69.25, 200.0]
6    (69.25, 200.0]
7      (4.25, 32.5]
8    (69.25, 200.0]
9     (32.5, 69.25]
dtype: category
Categories (4, interval[float64, right]): [(0.999, 4.25] < (4.25, 32.5] < (32.5, 69.25] <
                                           (69.25, 200.0]]
(0.999, 4.25]     3
(69.25, 200.0]    3
(4.25, 32.5]      2
(32.5, 69.25]     2
dtype: int64

以上结果说明，对于一维数组a而言，
25%分位数是4.25，共3个元素
50%分位数是32.5，共5个元素
75%分位数是69.25，共7个元素
100%分位数是200，共10个元素

写在最后，pandas对数据的预处理在本文中都已涵盖，希望对你的学习有帮助

Original: https://blog.csdn.net/dylan_young/article/details/122407203
Author: Efred.D
Title: Pandas常见方法（2）-pandas对数据的预处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/677581/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

单目测距原理与实现（代码可运行）

Opencv3实现单目视觉测距一、前言单目视觉测距：网上有很多关于单目测距的文章，主要借鉴的是OpenCV学习笔记（二十一）——简单的单目视觉测距尝试和单目摄像机测距（pyth…

人工智能 2023年7月28日
00101
回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出

回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出目录 * – 回归预测 | MATLAB实现LSSVM(最小二乘支持向量机)多输入单输出 &…

人工智能 2023年6月18日
0067
opencv基本操作二（读取视频流与保存视频、读取摄像头并保存视频）

opencv基本操作二要点代码 * 例程一例程二要点 opencv常用读视频函数 cv2.VideoCapture 、 cv2.VideoCapture.get 等，可以…

人工智能 2023年6月19日
00106
学习率调整之stepLR

在PyTorch的torch.optim包提供了非常多的可实现参数自动优化的类（SGD、Adam..）及学习率调整的类 lr_scheduler class torch.optim…

人工智能 2023年6月16日
0080
【Anaconda3】笔记内容008：详解Anaconda3的安装、Conda虚拟环境创建和其他项目环境的布置

目录摘要一将电脑中的原有的Anaconda3环境删除二进行Anaconda3安装三创建虚拟环境四如何在虚拟环境中复制原项目环境五补充下conda如何更全局源 …

人工智能 2023年7月17日
0070
MIT开源最强虚拟人生成器

MIT虚拟人AI-generated Characters 一、项目简介二、原理简介三、代码实现 * 1. 数据准备 2. 函数定义 3. 人物选择/上传 4. 输入驱动选择/…

人工智能 2023年5月27日
0083
windows10安装yolov5_obb时的一些报错记录

yolov5_obb链接1、使用netron查看yolov5s-best.onnx模型结构。在终端运行（切换到模型文件所在路径） pip install netronpython…

人工智能 2023年5月26日
00133
全网独家遗传算法优化BP神经网络的3种策略

【GA优化BP】全网独家遗传算法优化BP神经网络的3种策略课程简介 * 视频课程 3种优化策略 – （1）初级形态——初始值优化（2）进化形态——超参数优化（3）…

人工智能 2023年7月12日
0057
python的numpy函数求平方和_如何使用Python和Numpy计算r平方？

numpy.polyfit文档，它是适合的线性回归。具体来说，具有度’d’的numpy.polyfit拟合具有平均函数的线性回归 E(y | x)= p_d…

人工智能 2023年6月18日
0070
从数据预处理开始，用最简单的3D的CNN实现五折交叉验证的MRI图像二分类（pytorch）

文章目录前言一、将nii图像数据转成npy格式二、加载数据 * 1.加载数据，Dataset.py: 1.一些其他函数，utils.py: 二、建模 model.py 二、训…

人工智能 2023年7月1日
00123
Ubuntu20.04+RTX3090ti+cuda11.6+cudnn8.4.1+pytorch安装过程记录

为了快速配置基于pytorch的深度学习工作环境，现对Ubuntu20.04 +RTX3090ti +cuda11.6+ cudnn8.4.1 +pytorch安装过程进行简要记录…

人工智能 2023年6月23日
00105
一道经典的Python数据分析笔试题

最近无意看到一份关于数据分析的Python笔试题，做起来还是很有意思的，特意自己动手做了一下，和大家分享一下，希望大家也可以跟着练习。题目如下：首先，模拟数据： importp…

人工智能 2023年6月11日
0080
Text to image论文精读DF-GAN：A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型

目录一、原文摘要二、为什么提出DF-GAN？三、DF-GAN * 3.1、模型结构 3.2、鉴别器（Target-Aware Discriminator） – 3…

人工智能 2023年6月17日
0083
【论文解读】Co-attention network with label embedding for text classification

🍥关键词：文本分类、多分类、多标签、标签嵌入🍥发表期刊：Neurocomputing 2022 A2🍥原始论文：https://mqianliu.github.io/files/C…

人工智能 2023年7月1日
00117
Pytorch基础知识（15）基于PyTorch的多标签图像分类

早在 2012 年，神经网络就首次赢得了 ImageNet 大规模视觉识别挑战。Alex Krizhevsky，Ilya Sutskever 和 Geoffrey Hinton 彻…

人工智能 2023年6月25日
0053
医学图像分割常用指标及代码（pytorch）

现在，医学图像分割有很多现成的工具包可以快速测量一些指标，比如python中的medpy库。但是，我们还是要学习一下滴！该文章列出了一些常用的指标，并解释了它的原理。目录一、医…

人工智能 2023年7月22日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pandas常见方法（2）-pandas对数据的预处理

1.1 缺失值过滤

1.2 缺失值补全

2.1 某列重复值删除

2.2 某列/某些列数据映射

2.3 某列数据替换

2.4 DataFrame所有数据替换

大家都在看