基于Pandas的数据清洗

2023年7月9日上午1:31 • 人工智能 • 阅读 84

源数据中会存在缺失值（空值）
重复值
异常值

处理丢失处理

有两种丢失数据：
None
np.nan(NaN)

import numpy as np
type(None)#None&#x5BF9;&#x8C61;&#x7C7B;&#x578B;

type(np.nan)#NaN&#x6D6E;&#x70B9;&#x578B;

为什么在数据分析中需要用到的是浮点类型的空而不是对象类型？
数据分析中会常常使用某些形式的运算来处理原始数据，如果原数据中的空值为NAN的形式，则不会干扰或者中断运算。
NAN可以参与运算
None是不可以参与运算
在pandas中如果遇到了None形式的控制则pandas会将其强转成NAN的形式

#pandas&#x5904;&#x7406;&#x63A7;&#x7A7A;&#x503C;&#x64CD;&#x4F5C;
import pandas as pd
from pandas import DataFrame,Series

#&#x4F2A;&#x9020;&#x4E00;&#x7EC4;&#x6570;&#x636E;&#xFF08;&#x5B58;&#x5728;&#x7A7A;&#x503C;&#xFF09;
df = DataFrame(data=np.random.randint(0,100,size=(8,6)))
df.iloc[2,3] = None
df.iloc[4,4] = np.nan
df.iloc[5,2] = None

方式1：对空值进行过滤（删除空所在的行数据）
技术：isnull,notnull,any,all
规律：
- isnull -> any
- notnull -> all

df.isnull()

df.notnull()

#&#x54EA;&#x4E9B;&#x884C;&#x4E2D;&#x5B58;&#x5728;true
#any&#x7528;&#x6765;&#x68C0;&#x6D4B;&#x884C;&#x6216;&#x5217;&#x4E2D;&#x662F;&#x5426;&#x5B58;&#x5728;true
df.isnull().any(axis=1)
#&#x5C06;&#x4E0A;&#x4E00;&#x6B65;&#x7684;&#x5E03;&#x5C14;&#x503C;&#x4F5C;&#x4E3A;&#x6E90;&#x6570;&#x636E;&#x7684;&#x884C;&#x7D22;&#x5F15;
df.loc[df.isnull().any(axis=1)]#true&#x5BF9;&#x5E94;&#x7684;&#x884C;&#x6570;&#x636E;&#x5C31;&#x662F;&#x5B58;&#x5728;&#x7F3A;&#x5931;&#x503C;&#x7684;&#x884C;&#x6570;&#x636E;
drop_index = df.loc[df.isnull().any(axis=1)].index#&#x5373;&#x5C06;&#x8981;&#x5220;&#x9664;&#x7684;&#x884C;&#x7D22;&#x5F15;
df.drop(labels=drop_index,axis=0)#&#x5C06;&#x7F3A;&#x5931;&#x884C;&#x8FDB;&#x884C;&#x5220;&#x9664;

df.notnull().all(axis=1)
df.loc[df.notnull().all(axis=1)]

方式2：
dropna：可以直接将缺失的行或列进行删除

df.dropna(axis=0)

对缺失值进行覆盖
fillna

df.fillna(value='666')#&#x76F4;&#x63A5;&#x7528;&#x503C;&#x8986;&#x76D6;

df.fillna(method='ffill',axis=1)#ffill&#x5411;&#x524D;&#x586B;&#x5145;&#xFF0C;bfill&#x5411;&#x540E;&#x586B;&#x5145;

处理重复数据

#&#x751F;&#x6210;&#x4E00;&#x7EC4;&#x5E26;&#x6709;&#x91CD;&#x590D;&#x6570;&#x636E;&#x7684;&#x6570;&#x636E;&#x6E90;&#xFF08;&#x91CD;&#x590D;&#x7684;&#x884C;&#x6570;&#x636E;&#xFF09;
df = DataFrame(data=np.random.randint(0,100,size=(8,4)))
df.iloc[2] = [0,0,0,0]
df.iloc[4] = [0,0,0,0]
df.iloc[6] = [0,0,0,0]

#&#x4F7F;&#x7528;drop_duplicates
df.drop_duplicates(keep='first')#first&#x4FDD;&#x7559;&#x7B2C;&#x4E00;&#x884C;&#xFF0C;last&#x4FDD;&#x7559;&#x6700;&#x540E;&#x4E00;&#x884C;&#xFF0C;flase&#x5168;&#x90E8;&#x5220;&#x9664;

处理异常数据

自定义一个1000行3列（A,B,C）取值范围为0-1的数据源，然后将C列中的值大于其两倍标准差的异常值进行清洗

df = DataFrame(data=np.random.random(size=(1000,3)),columns=['A','B','C'])
#np.random.random&#x4E00;&#x4EE5;&#x5185;&#x7684;&#x968F;&#x610F;&#x6570;
df
twic_std = df['C'].std()*2
df['C'] > twic_std
~(df['C'] > twic_std)#&#x53D6;&#x53CD;
df.loc[~(df['C'] > twic_std)]#&#x4FDD;&#x7559;true&#x7684;&#x884C;

Original: https://blog.csdn.net/weixin_50248555/article/details/121357024
Author: GoldenFong
Title: 基于Pandas的数据清洗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679705/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

使用GNN求解组合优化问题

文章目录 1 论文内容 * 1.1 先验知识 1.2 论文方法 – 1.2.1 大致原理 1.2.2 源码关键实现 1.3 实际问题上的应用 – 1.3.1…

人工智能 2023年6月16日
00100
【NLP】语料库和词汇知识库

语料库(corpus) 语料库(corpus)就是存放语言材料的仓库(语言数据库)，基于语料库进行语言学研究–语料库语言学(corpus linguistics)。语料库语言学研…

人工智能 2023年5月27日
0072
[ 数据集 ] VOC 2012 数据集介绍

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月27日
0072
在PyTorch中，如何进行前向传播（forwar

详细解决问题：如何在PyTorch中进行前向传播在PyTorch中，前向传播是神经网络中非常重要的一个步骤，它用于将输入数据经过网络的各个层进行计算，得到输出结果。本文将详细介绍…

人工智能 2024年1月3日
0049
命名实体识别方法-基本模型，词汇增强，嵌套实体，少样本学习

写在最前面。最近对NER做了一个调研，看了一些论文，将论文中提到的NER方法汇总到博客里，此博客还会继续更新。相关论文和数据集整理可见Github。按照我的个人理解，NER任务可以…

人工智能 2023年6月5日
00129
ECA 注意力模块原理分析与代码实现

前言本文介绍ECA注意力模块，它是在ECA-Net中提出的，ECA-Net是2020 CVPR中的论文；ECA模块可以被用于CV模型中，能提取模型精度，所以给大家介绍一下它的原…

人工智能 2023年7月28日
0073
如何用python将一张excel表按某一列分类为多张表

项目场景： python数据处理，excel, pandas 问题描述例如：当我们遇到上述表格，我们想把表格按照某一列来拆分为多张表，数据量少的时候可以简单的CTRL+C,但是当…

人工智能 2023年6月19日
0069
中医药知识图谱创建与应用辅导资料汇编

摘要：知识图谱（Knowledge Graph）是以”语义网络”为骨架构建起来的巨型、网络化的知识系统，能捕捉并呈现领域概念之间的语义关系，使各种信息系统中…

人工智能 2023年6月4日
0074
OpenCV-Python教程：直方图均衡(equalizeHist,createCLAHE)

目录 1、直方图均衡equalizeHist 2、自适应直方图均衡createCLAHE 扩展阅读：返回Opencv-Python教程直方图均衡就是让图像的像素个数多的灰度级拉…

人工智能 2023年6月20日
00109
OpenCV从入门到入坟

小脑一抽去学了狗都不学的CV，几天热度到现在全是凉水学习视频链接b站openCV 图像基本操作 1.1 图片处理 cv2.IMREAD_COLOR: 彩色图像 cv2.IMREA…

人工智能 2023年5月26日
0076
【JavaScript】—–初始JavaScript

分享第十八条励志语录最美好的不是未来，是今天。阳光这么好，何必自寻烦恼。生活总会有个未来，就像四季更迭永远有春天一样，不急不躁，该有的都会有。人，最好的心态是平静；最好的状态是简…

人工智能 2023年6月26日
0087
使用斯坦福分词器进行词性标注

使用斯坦福分词器进行词性标注文章目录使用斯坦福分词器进行词性标注前言一、斯坦福分词器是什么？二、使用步骤 * 1.去官网下载工具包 2.导入库 3.斯坦福模型功能的介绍 …

人工智能 2023年5月27日
0086
halcon脚本-深度学习【目标检测】

文章目录前言一、数据集的准备 * 1.标注工具的安装 2.数据集的准备 3.标注数据 4.解释xml文件的内容二、数据转换 * 1.解析XML文件 2.转换得到hdev文件 …

人工智能 2023年7月12日
0057
多目标柔性车间调度丨NSGA-II:以算例MK01为例

车间调度系列文章： 1、车间调度的编码、解码，调度方案可视化的探讨 2、多目标优化:浅谈pareto寻优和非支配排序遗传算法-NSGAII的非支配排序及拥挤度 3、柔性车间调度问题…

人工智能 2023年6月24日
0091
多传感器融合定位技术

由于 GNSS定位信息更新频率低，不能满足自动驾驶中实时性的要求，且定位信号会因隧道、建筑群等障碍物的遮挡而中断。而INS中配备高频传感器，一定时间内可以提供连续的较高精度的汽车…

人工智能 2023年7月27日
0072
基于自适应图学习的不完整多视图谱聚类

摘要：首次利用图学习和谱聚类技术学习不完全多视图聚类的公共表示。 1.采用低秩表示自适应地构造每个视图的图 2.基于谱聚类，采用谱约束实现每个视图的低维表示 3.引入一个共同正则化…

人工智能 2023年6月1日
0091

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

基于Pandas的数据清洗

处理丢失处理

处理重复数据

处理异常数据

大家都在看