使用Pandas进行数据清洗

2023年7月9日上午2:04 • 人工智能 • 阅读 98

数据清洗的目的是修正异常值，以更好地进行运算和观察结果。通过 Pandas对序列或数据帧的清洗分为两个步骤：异常检测和数据修正。

1.异常检测
Pandas中的空值用’ NaN‘表示，可以通过调用 isnull和 notnull来检测序列对象和数据帧对象是否为异常值。

import pandas as pd

dic = {'name': ['Tom', 'Tony', 'Jack'], 'age': [16, 17, 18], 'class': [1, None, None]}
df = pd.DataFrame(dic)
df.isnull()

2.数据修正
数据检测完毕之后，需要对数据进行修正。

（1）填充值：将序列或者数据帧中的异常值” NaN“使用其他数据进行填充。

import pandas as pd

dic = {'name': ['Tom', 'Tony', 'Jack'], 'age': [16, 17, 18], 'class': [1, None, None]}
df = pd.DataFrame(dic)
df.fillna(0)

（2）替换值：对于一些明显出错的信息，如下列 age列中的’117’，’118’就可以使用 replace进行替换。

import pandas as pd

dic = {'name': ['Tom', 'Tony', 'Jack'], 'age': [16, 117, 118], 'class': [1, 1, 1]}
df = pd.DataFrame(dic)
df.replace({117:17, 118:18})

（3）删除值：删除异常值的同时会删除对应的数据行，可以使用dropna方法进行清除异常数据。
dropna(axis=0, how=‘any’, thresh=None, subset=None, inplace=False)
参数

axis：默认为0，删除包含缺失值的行。若设置为1，删除包含缺失值的列（不建议这样做，因为可能删除一个特征）。
how：默认值any，如果存在NaN值，就删除该行或该列。若设置为all，当所有值都是NaN值，才删除该行或该列。
thresh：表示有效数据量的最小要求，如thresh=1，该行或该列至少有一个不是NaN值时会将其保留。
subset：在特定的字集中寻找NaN值。
inplace：表示是否在原数据上操作，如果设为True，则表示直接修改原数据；如果设为False，则表示修改原数据的副本，返回新数据。

import pandas as pd

dic = {'name': ['Tom', 'Tony', 'Jack'], 'age': [16, 17, 18], 'class': [1, None, None]}
df = pd.DataFrame(dic)

df.dropna(axis=0, thresh=3)

Original: https://blog.csdn.net/qq_43965708/article/details/114452300
Author: Dream丶Killer
Title: 使用Pandas进行数据清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679757/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【OpenCV 例程200篇】62. 图像锐化——钝化掩蔽

【OpenCV 例程200篇】62. 图像锐化——钝化掩蔽欢迎关注『OpenCV 例程200篇』系列，持续更新中欢迎关注『Python小白的OpenCV学习课』系列，持续更新…

人工智能 2023年6月18日
0068
损失函数概论（机器学习）

目录第一步：理解损失是什么第二步：损失函数使用步骤第三步：常用样本损失函数第四步：二维图像理解损失函数第五步：均方差损失函数第一步：理解损失是什么损失：即所有样本的…

人工智能 2023年6月30日
0081
晶体、分子结构软件：CrystalMaker for Mac

Original: https://www.cnblogs.com/aurora-123/p/16734116.htmlAuthor: 佛系女孩Title: 晶体、分子结构软件：C…

人工智能 2023年6月3日
0077
数字图像处理习题（一）

编程思路：（1）向灰度图像增加噪声。（2）获取图像高与宽，并新建新的图像矩阵，为了方便边界操作，将其高宽各增加2。（3）利用嵌套for循环对每一个像素点进行操作。（3）均值…

人工智能 2023年6月22日
0073
Jetson xavier NX / ubuntu18.04 /ros melodic/python3安裝使用cv_bridge

最開始是出現問題： from cv_bridge.boost.cv_bridge_boost import getCvType ImportError: dynamic modul…

人工智能 2023年7月19日
0048
pytorch基础操作

处理数据（Torch）文章目录 * – 处理数据（Torch） – + 数据初始化 – tensor的索引、切片、连接、变异操作 &#8211…

人工智能 2023年7月22日
0047
KeeWiDB 的架构由代理层和服务层两个部分构成

一、整体架构 KeeWiDB 的架构由代理层和服务层两个部分构成：代理层：由多个无状态的 Proxy 节点组成，主要功能是负责与客户端进行交互；服务层：由多个 Server 节…

人工智能 2023年6月28日
0081
owin 中间件 katana 如何解密cookie

.NET MVC5 默认的用户登录组件是AspNet.Identity ，支持owin，并且微软自己实现的一套owin 中间件叫 katana 补充一下 katana项目源码地址：…

人工智能 2023年6月4日
0056
AttributeError: cannot assign module before Module.__init__() call 问题解决

AttributeError: cannot assign module before Module. init () call 问题解决在使用自定义模块时出现以下问题：出现此问…

人工智能 2023年7月22日
0055
MacBook 使用 Loopback 录屏和录音频（MacBook 录屏教程/录视频教程/Loopback 教程）

文章目录一、下载软体二、Loopback 界面介绍三、设置系统的声音输入/输出设备 * （一）设置声音输入设备（二）设置声音输出设备四、录制程序中选择声音输入设备五、开…

人工智能 2023年5月27日
00158
UI绘制流程_UI具体绘制（布局流程）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0070
YOLOv7训练记录——权重使用问题

文章目录更新提醒：2023/04/01更新 YOLOv7简介预训练权重（用不用？用哪个？）总结更新提醒：2023/04/01更新 YOLOv7简介 YOLOv7论文链接：Y…

人工智能 2023年7月26日
0088
【语音增强】基于维纳滤波实现语音增强matlab源码

1 模型提出了一种基于先验信噪比估计的维纳滤波语音增强算法。通过计算沉默段的统计平均值得到初始噪声功率谱，并对初始噪声功率谱和有噪语音功率谱进行平滑处理，更新噪声功率谱。最后，考…

人工智能 2023年5月23日
0074
YOLO系列梳理（三）YOLOv5

前言YOLOv5 是在 YOLOv4 出来之后没多久就横空出世了。今天笔者介绍一下 YOLOv5 的相关知识。目前 YOLOv5 发布了新的版本，6.0版本。在这里，YOLOv5 …

人工智能 2023年5月26日
0090
语义分割系列26-VIT+SETR——Transformer结构如何在语义分割中大放异彩

SETR：《Rethinking Semantic Segmentation from a Sequence-to-Sequence Perspectivewith Transfo…

人工智能 2023年6月24日
0092
PASCAL_VOC_2012介绍以及制作自己的数据集

文章目录 PASCAL_VOC_2012 * 简介文件结构 – Annotations train.txt和val.txt trainval.txt boat_tra…

人工智能 2023年7月13日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用Pandas进行数据清洗

大家都在看