常用的数据清洗方法学习笔记（全面、完整）

2023年7月17日上午7:42 • 人工智能 • 阅读 65

常用的数据清洗方法

在数据处理过程中，一般都需要进行数据的处理工作，如数据集是否存在重复、是否存在缺失、数据是否具有一定的完整性和一致性、数据中是否存在异常值等，当发现数据中可能存在上述问题时，都需要有针对的处理，本节主要介绍如何识别和处理重复观测、缺失值和异常值。

1. 重复观测处理

重复观测是指观测行存在重复的现象，重复观测的存在会影响数据分析和挖掘结果的准确性，所以在数据分析和建模之前需要进行观测的重复性检验，如果存在重复观测，还需要进行重复项的删除；下图中唯品会出现了2次。

检测数据集的记录是否存在重复，Pandas中使用duplicated方法，该方法返回的是数据行每一行的检验结果，即每一行返回一个bool值，使用drop_duplicates方法移除重复值

import pandas as pd
a = pd.read_excel('same_data.xlsx')
print("是否存在重复观测：",any(a.duplicated()))
a.drop_duplicates(inplace=True)
f=pd.ExcelWriter('same_data.xlsx')
a.to_excel(f)
f.save()

2. 缺失值处理

数据缺失在大部分数据分析应用中都很常见， Pandas使用浮点值NaN表示浮点或非浮点数组中的缺失数据，Python内置的None值也会被当作缺失值处理，Pandas使用方法isnull检测是否为缺失值，检测对象的每一个元素返回一个bool值。

from pandas import Series
from numpy import NaN
data = Series([10.0,None,20,NaN,30])

print(data.isnull())

可以看出，data数据中的第二个和第四个元素都被视为缺失值
缺失值处理方法可以采用三种方法，分别是 过滤法、填充法和插值法，

过滤法又称为删除法，是指当缺失的观测值比例非常低时（如5%以内），直接删除存在缺失值的观测；或者当某些变量的缺失比例非常高（如85%以上），直接删除这些缺失的变量；

填充法又称为替换法，是指用某种常数直接替换那些缺失值，例如，对于连续变量而言，可以使用均值或中位数替换；对于离散变量，可以使用众数替换

插值法是指根据其他非缺失变量或观测来预测缺失值，常见的插值法有线性插值法、K近邻插值法、Lagrange插值法。

数据过滤

数据过滤的dropna方法的语法格式如下：

dropna(axis=0, how='any', thresh=None)

其中：（1）axis=0表示删除行；axis=1表示删除列
（2）how参数可选值为any或all，all表示删除全有NaN的行
（3）thresh为整数类型，表示删除的条件，如thresh=3，表示一行中至少有3个非NaN值时，才将其保留

from pandas import read_excel
a=read_excel("Pdata2_33.xlsx",u)

Original: https://blog.csdn.net/qq_45955883/article/details/116171582
Author: Yozu_Roo
Title: 常用的数据清洗方法学习笔记（全面、完整）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698186/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

channel-wise卷积–学习笔记

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月24日
0069
pandas教程03—DataFrame的创建及索引

文章目录欢迎关注公众号【Python开发实战】，免费领取Python学习电子书！工具-pandas * Dataframe对象 – 创建Dataframe 多级索引…

人工智能 2023年7月6日
0090
python-OpenCV视频常规处理（六）

一、视频处理 opencv不仅能够处理图像，还能够处理视频，视频是由大量的图像构成的，这些图像是以固定的时间间隔从视频中获取的，这样就能够使得图像处理的方法对这些图像进行处理，进而…

人工智能 2023年6月18日
0066
超越前作，实现动漫风格迁移——AnimeGANv2

前言之前一直在研究如何将图像动漫化，尝试了阿里云api和百度api，效果都不尽如人意。结果发现了一个宝藏github项目——AnimeGANv2，能够将现实世界场景照片进行动漫风…

人工智能 2023年7月27日
0051
设计模式学习（二十一）：命令模式

设计模式学习（二十一）：命令模式作者：Grey 原文地址：博客园：设计模式学习（二十一）：命令模式 CSDN：设计模式学习（二十一）：命令模式命令模式命令模式是一种行为型…

人工智能 2023年6月29日
0067
遥感目标检测数据集

遥感目标检测数据集目标检测（Object Detection）的任务是找出图像中所有感兴趣的目标（物体），确定它们的类别和位置，是计算机视觉领域的核心问题之一。由于各类物体有不同…

人工智能 2023年7月21日
0082
R语言——实验一：回归分析

一元线性回归实验绘制散点图，并判断身高与体重之间是否大致呈线性关系利用 R 编程，计算身高和体重之间的相关系数；利用 R 编程，求解回归方程系数，并在身高与体重的散点图中显示…

人工智能 2023年6月16日
0074
PyTorch学习笔记（二）：PyTorch简介与基础知识

👨‍💻 作者简介：大数据专业硕士在读，CSDN人工智能领域博客专家，阿里云专家博主，专注大数据与人工智能知识分享，公众号：GoAI的学习小屋，免费分享书籍、简历、导图等资料，更有…

人工智能 2023年6月16日
0097
智能车摄像头基本循迹控制

基于摄像头的三种基本巡线控制摄像头的三种基本巡线：摄像头程序处理后会给出一条中线，使用计算中线与标准值误差，赋予转向环PID。类似于线性CCD的控制方案，是最早期使用的方法。…

人工智能 2023年6月2日
0099
2022-2028年中国国际货运代理行业市场竞争态势及未来前景分析报告

报告类型：产业研究报告格式：电子版、纸介版出品单位：智研咨询-产业信息网智研咨询发布的《2022-2028年中国国际货运代理行业市场竞争态势及未来前景分析报告》共十一章。首先…

人工智能 2023年7月17日
0099
iTunes Connect在线创建 App

[ iTunes Connect Home Page …………………………

人工智能 2023年6月28日
0082
SRGAN——使用与超分辨率重建的GAN

SRGAN数据GAN理论在超分辨率重建（SR）方面的应用。一、超分辨率技术 1.SR技术介绍 SR技术，是指从观测到的低分辨率图像重建出相对应的高分辨率图像，在监控设备、卫星图像…

人工智能 2023年5月28日
0076
PRML 基础知识

本文地址：https://www.cnblogs.com/faranten/p/15880295.html转载请注明作者与出处 1 一个经典例子一个经典的例子就是Po…

人工智能 2023年6月4日
0067
YoLoV5学习（4）–detect.py程序（预测图片、视频、网络流）逐段讲解~

本章博客主要分析YoloV5代码中的detect程序代码，按照程序运行步骤顺序主要分为3大部分。 1、包与库的导入 1.1 导入安装好的python库、torch库等等其中：ar…

人工智能 2023年7月5日
0076
图神经网络简介（一）

【原文地址】【视频讲解】【引言】神经网络已经适应于利用图的结构和属性。我们探索构建图神经网络所需的组件 – 并激发它们背后的设计选择。【注】我们可以看到每一个…

人工智能 2023年7月13日
0077
面向法律领域的罪名预测、问题分类与FAQ问答模型设计与实现【NLP】

一、面向法律领域的罪名预测、问题分类与FAQ问答模型设计与实现【NLP】目前NLP技术在各个行业中应用逐步打开，尤其在金融，医疗，法律，旅游方面，NLP技术助力法律智能，能够在一…

人工智能 2023年7月1日
0081

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

常用的数据清洗方法学习笔记（全面、完整）

常用的数据清洗方法

1. 重复观测处理

2. 缺失值处理

数据过滤

大家都在看