数据清理

2023年7月8日下午2:00 • 人工智能 • 阅读 89

学习目标：

1、熟悉常见数据问题的处理方式

2、掌握对缺失值的检测与处理

3、掌握重复值的检测与处理

数据清理主要是通过一定的检测与处理方法，将”脏”数据清理成质量较高的”干净”数据，使数据具有完整性、唯一性、权威性、合法性和一致性等特点。常遇到的数据问题有三种—数据缺失、数据重复、数据异常，它们分别是由数据中存在缺失值、重复值、异常值引起的。

1.1、缺失值的处理方式

缺失值是指样本数据中某个或某些属性的值是不全的，主要是由于机器故障、人为因素等导致部分数据未能收集。缺失值主要有三种处理方式：删除、填充和插补。

删除缺失值是通过直接删除包含缺失值的行和列来达到目的，适用于删除缺失值后只产生较小的偏差，但并不是十分有效。

填充和插补缺失值均使用指定的值来填充缺失值，避免了因某个属性而放弃大量其他属性值的情况，适用于数量较大的样本数据。

1.2重复值的处理方式

重复值是指样本数据中某个数据记录完全相同，主要是由于人工录入，机器故障等导致部分数据重复录入，主要有两种方式，即删除重复值和保留重复值。其中删除重复值是比较常见的方式，其目的在于保留唯一的数据。

2.1、缺失值的检测

pandas中None或NaN代表缺失值。检测缺失值的常用方法包括isnull()、notnull()、isna()和notna()。

方法说明isnull()若返回的值为True，说明存在缺失值notnull()若返回的值为False，说明存在缺失值isna()若返回的值为True，说明存在缺失值notna()若返回的值为False，说明存在缺失值

创建一个DataFrame类对象，以isna()和notna()方法为例

import pandas as pd
import numpy as np
na_df=pd.DataFrame({'A':[1,2,np.NaN,4],
                   'B':[3,4,4,5],
                   'C':[5,6,7,8],
                   'D':[7,5,np.NaN,np.NaN]})
na_df
#使用isna()方法检测na_df中是否存在缺失值
na_df.isna()
#True中对应着缺失值的位置

。接上例，notna()方法与isna()方法返回的结果完全相反

na_df.notna()
#返回False对应着缺失值

2.2、缺失值的处理

2.2.1、删除缺失值

pandas中提供了删除缺失值的方法dropna()。dropna()方法用于删除缺失值所在的一行或一行数据，并返回一个删除缺失值后的新对象。语法格式如下：

DataFrame.dropna(axis=0,how='any',thresh=None,subset=None,inplace=False)

使用dropna()方法删除na_df对象中缺失值所在的一行对象

#删除缺失值,删除的是缺失值的一整行数据
na_df.dropna()

保留至少三个非NaN值的行

na_df.dropna(thresh=3)

2.2.2、填充缺失值

pandas中提供了填充缺失值的方法fillna()。fillna()方法既可以使用指定的数据填充，也可以使用缺失值前面或后面的数据填充，语法格式如下：

DataFrame.fillna(value=None,method=None,axis=None,inplace=False,limit=None,downcast=None)

使用fillna()方法将na_df对象中的缺失值填充为缺失值所在列的平均值

#填充缺失值
a=np.around(np.mean(na_df['A']),1)
b=np.around(np.mean(na_df['D']),1)
na_df.fillna({'A':a,'D':b})

使用fillna()方法将na_df对象中的缺失值填充为缺失值前面的值

na_df.fillna(method='ffill')

2.2.3、插补缺失值

pandas中提供了插补缺失值的方法interpolate().格式如下：

DataFrame.interpolate(method='linear',axis=0,limit=None,inplace=False,limit_direction=None,limit_area=None,downcast=None,**kwargs)

使用interpolate()方法结合线性插值法对na_df对象中的缺失值进行插补

na_df.interpolate(method='linear')

3.1、重复值的检测

pandas中使用duplicated()方法检测数据中的重复值。语法格式如下：

DataFrame.duplicated(subset=None,keep='first')

先创建一个包含重复值的DataFrame类对象person

person=pd.DataFrame({'name':['刘婷','张三','李四','王浩','李华','张静'],
                    'age':[24,23,25,33,33,22],
                    'height':[163,176,178,176,178,164],
                    'gender':['女','男','男','男','男','女']
                    })
print(person)

检测person对象中的重复值

person.duplicated()

3.2、重复值的处理

重复值的一般处理方式是删除。pandas中使用drop_duplicates()方法删除重复值。

DataFrame.drop_duplicates(subset=None,keep='first',inplace=False,ignore_index=False)

使用drop_duplicates()方法保留person对象中第一次出现的重复值，删除第二次出现的重复值。

person.drop_duplicates()

Original: https://blog.csdn.net/weixin_64664352/article/details/127496756
Author: 独角兽没有角 _352
Title: 数据清理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/678630/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ImageNet数据集 & 下载

文章目录 1. ImageNet 说明 2. ILSVRC2012 说明 3. ImageNet下载方式 4. ImageNet数据组织与使用 ImageNet 说明 ImageN…

人工智能 2023年6月25日
0093
神经网络-注意力机制

1 注意力简介计算机视觉（computer vision）中的注意力机制（attention）主要是想让系统学会把注意力放在感兴趣的地方，具备注意力机制的神经网络能够自主学习注…

人工智能 2023年7月13日
0088
Spring–IOC&&基于XML管理bean

IOC容器 IOC思想 IOC：Inversion of Control 即反转控制获取资源的传统方式自己做饭：买菜、洗菜、择菜、改刀、炒菜，全过程参与，费时费力，必须清楚了…

人工智能 2023年6月30日
0082
【YOLOv7】使用 YOLOv7 做目标检测 (使用自己的数据集 + 图解超详细)

文章目录 YOLOv7 * 论文+源码环境搭建模型训练 – 修改YOLOV7配置 + data.yaml weights train.py 开始训练模型测试 &#…

人工智能 2023年7月9日
00109
gma 教程 | 气候气象 | 计算标准化降水指数（SPI）

目标【基于 Excel 降水和蒸散数据计算 SPI】【基于 GTiff 栅格降水和蒸散数据计算 SPI】环境系统： Window 10+ (X64)Python 版本： 3….

人工智能 2023年6月23日
0080
torch.cuda

该包增加了对 CUDA张量类型的支持，实现了与 CPU张量相同的功能，但使用 GPU进行计算。它是延迟的初始化，所以你可以随时导入它，并使用 is_available()来确定系…

人工智能 2023年7月21日
0056
【ROS进阶篇】第八讲（上） URDF文件的语法详解

【ROS进阶篇】第八讲（上） URDF文件的语法详解文章目录【ROS进阶篇】第八讲（上） URDF文件的语法详解前言 * 一、URDF的基本概念二、link标签 &#821…

人工智能 2023年6月15日
0071
PyTorch模型 .pt、.pth与.pkl 的区别

调试 PyTorch代码保存训练模型的时候有些时候保存的格式是 .pt，有些时候是 .pth与 .pkl，不禁好奇它们之间的区别。我们经常会看到后缀名为 .pt， .pth， ….

人工智能 2023年7月22日
0080
文献笔记1：《Knowledge Graph Completion via Complex Tensor Factorization》理论（上）

0 参考文献 [1] Trouillon T, Dance C R, Welbl J, et al. Knowledge graph completion via complex …

人工智能 2023年6月10日
0066
【机器学习】Logistic 分类回归算法（二元分类 & 多元分类）

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。该文章收录专栏✨— 机器学习 —✨ 【机器学习】logistics分类一、线性回归…

人工智能 2023年7月25日
0053
QueryDet: Cascaded Sparse Query for Accelerating High-Resolution for Small Object Detection

QueryDet: Cascaded Sparse Query for Accelerating High-Resolution for Small Object Detectio…

人工智能 2023年7月9日
0082
python实现Lasso回归分析（特征筛选、建模预测）

实现功能： python实现Lasso回归分析（特征筛选、建模预测）输入结构化数据，含有特征以及相应的标签，采用Lasso回归对特征进行分析筛选，并对数据进行建模预测。实现代码…

人工智能 2023年7月4日
0081
dbscan内存不够_使用DBSCAN（大矩阵计算）进行聚类时出现内存错误

我用DBSCAN对数据进行聚类，以去除异常值。由于scikit learn中的DBSCAN实现无法处理几乎1gb的数据，因此计算非常消耗内存。这个问题已经提到了here 下面代码的…

人工智能 2023年6月2日
0067
【PyTorch】KNN实战之MNIST数据分类与归一化处理

KNN的算法实现首先创建演示数据集 import numpy as np import matplotlib.pyplot as plt def createDataSet():…

人工智能 2023年7月2日
0051
FPGA实现GTX视频传输，全网最细讲解，提供2套工程源码

目录 1.前言： 2.工程整体框架： 3.GTX IP 配置及细节讲解 4.GTX收发数据编解码讲解 5.工程1介绍：OV5640转GTX 6.工程2介绍：HDMI转GTX 7.上…

人工智能 2023年6月27日
00413
Python知识点整理，图文结合近三万字（史上最全）

Python知识点（一） ✅作者简介：大家好我是编程ID📃个人主页：编程ID的csdn博客系列专栏：python💬推荐一款模拟面试、刷题神器👉点击跳转进入网站Python精华知识点…

人工智能 2023年7月18日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据清理

大家都在看