数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

2023年7月7日下午1:03 • 人工智能 • 阅读 91

本文暂不讨论数据类型转换、离散变量重编码、冗余信息及无意义信息处理方法，仅先从最基本数据清洗规则：重复值、缺失值、异常值处理角度入手进行讨论，其余部分内容将在后期进行说明

注：本文讨论内容基于Python语言，处理对象为常规pandas读取数据表格格式Dataframe

一、重复值处理

1.数据预览

使用函数：dataframe.duplicated(subset=[‘A’,’B’],keep=’first’)

Dataframe通过调用duplicated()，返回一个长度等于记录条数的bool类型Series，Series中的值索引位置对应Dataframe行索引位置，根据keep参数不同，表现如下（非重复记录均为False）：
keep取值 效果

‘first’（默认）第一条重复记录为False，其余重复记录为True’last’最后一条重复记录为False，其余重复记录为TrueFalse重复记录均为True

duplicated()可以通过添加Dataframe列索引列表限制重复检索范围，dataframe.duplicated()无限制情况下思维上类似SQL采用:

SELECT key1,key2...keyn FROM table GROUP BY key1,key2...keyn

的方式对一个包含了n个键的表格进行筛选，dataframe.duplicated([‘检索1′,’检索2’])则与：

SELECT key1,key2 FROM table GROUP BY key1,key2

在思维上类似，总结来说，通过dataframe.duplicated()可以实现对表格数据重复性的预览，进而决定采取怎样的措施处理重复数据

2.删除重复记录

使用函数：dataframe.drop_duplicates(subset=[‘A’,’B’],keep=’first’,inplace=True)

通常，对于重复数据我们采用直接删除的方法进行处理，这里我们采用的dataframe.drop_duplicates()在使用上完全与duplicated()相同，参数inplace=True代表直接在原本Dataframe上进行数据删除，inplace=False代表生成副本

二、缺失值处理

1.数据预览

使用函数：dataframe.isnull()

dataframe.isnull()会返回一个和调用dataframe结构相同的bool类型dataframe，该dataframe对应位置的bool值代表该处是否为空，这种方法并不直观，我们可以通过：

dataframe.isnull().sum() #列检索空值累加
dataframe.isnull().transpose().sum() #行检索空值累加

进一步确认空值在各行各列的分布情况并采取对应的处理方法

2.缺失值处理

评估缺失值的缺失情况，我们主要采取：删除缺失记录，删除缺失索引，替换和插值四种方法，这里暂不讨论插值

a.删除缺失记录/删除缺失索引

使用函数： DataFrme.dropna(axis=0,how=’any’,thresh=None,subset=None,inplace=False)

其使用方法如下：

参数效果

axis

默认axis=0。0为按行删除,1为按列删除

how

默认'any'，'any'指带缺失值的所有行/列；'all'指清除一整行/列都是缺失值的行/列

thresh

int,保留含有int个非nan值的行

subset

删除特定列中包含缺失值的行或列

inplace

默认False，即筛选后的数据存为副本,True表示直接在原数据上更改

b.删除缺失值

使用函数：DataFrme.fillna()

fillna()函数根据使用方式的不同调用参数的方式存在较大的差异

前后替换：为利用前后有效值进行空值填充

dataframe.fillna(method = 'ffill') # 替换法之前向替换
dataframe.fillna(method = 'bfill') # 替换法之后向替换

整体替换：全范围整体替换

dataframe.fillna(value = 0) # 全表空值替换为0

列索引替换：根据列索引按实际情况设计列的替换值

dataframe.fillna(value={'index1':dataframe.index1.mode()[0],'index2':dataframe.index2.mean(),'index3':dataframe.index3.median()}) # 前三列检索列空值依次被众数，均值，中位数替换

当然在数据量不大的情况下，我们也可以使用最简单的方法——二重循环对全表进行检索，根据特点进行相应的数值替换

三、异常值处理

本文所指代的异常值是指具备数值意义的定量数据，并从分布的角度定义数据的异常

1.数据预览

a.n个标准差法

使用公式：

其中参数

是样本均值，

是样本标准差，当n取2时，满足条件的数值就可以定义为异常值，该方法适用于样本分布基本满足正态分布的数据

b.箱线图判别法

使用公式：

其中Q1为下四分位数，Q3为上四分位数，IOR为四分位差，n取1.5时，满足上述任一条件的数值即可视为异常值。因为箱线图不存在正态分布这一使用限制，故其适用于绝大多数定量数据的异常值判断

2.异常值替换

在经历重复值，缺失值处理及前期其余数据操作之后，数据表格往往已经具备了较为规范的结构，对于异常值，我们一般直接采取替换的方法，替换值可以采取原始数据均值、上四分位、下四分位等使用者觉得合理的数值，我们以将大于上四分位异常数值替换为上四分位为例：

Q1 = dataframe.index.quantile(q = 0.25)
Q3 = dataframe.index.quantile(q = 0.75)
IQR = Q3 - Q1
UL = Q3 + 1.5 * IQR
replace_value = dataframe.index[dataframe.index < UL].max()
dataframe.index[dataframe.index > UL] = replace_value

Original: https://blog.csdn.net/doingmorewithles/article/details/127123159
Author: 鉴于明镜止水
Title: 数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/676306/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PySpark:使用RDD转化为DataFrame时报错TypeError: Can not infer schema for type: ＜class ‘str‘＞

Spark版本：V3.2.1 前文介绍过说可以将Spark RDD转化为Spark DataFrame，具体可以参考博客：https://blog.csdn.net/yeshang…

人工智能 2023年7月6日
00138
PyTorch 图像处理：Tensor、Numpy、PIL格式转换以及图像显示

🤵 Author ：Horizon Max ✨ 编程技巧篇：各种操作小结 🎇 机器视觉篇：会变魔术 OpenCV 💥 深度学习篇：简单入门 PyTorch 🏆 神经网络篇：经典网络…

人工智能 2023年7月18日
0053
LinuxC实现FTP云盘

目录基础知识实现思路服务器客户端实现功能服务器功能客户端功能运行展示服务器客户端完整代码服务器客户端相关调用函数 socket()：创建一个网络通信端点…

人工智能 2023年6月29日
0053
RuleRec：利用知识图谱学习可解释规则并进行推荐

核心问题：现有的方法存在难解释性和忽略了item association types Eg：如果用户购买了手机，推荐一些手机充电器或机壳是有意义的(因为它们是手机的补充品)。但如…

人工智能 2023年6月1日
00114
小熊飞桨练习册-01手写数字识别

文件说明文件说明 train.py 训练程序 test.py 测试程序 report.py 报表程序 onekey.sh 一键获取数据到 dataset 目录下 get-dat…

人工智能 2023年6月4日
0083
多分类任务的混淆矩阵

今天我将讨论如何在多分类中使用混淆矩阵评估模型的性能。什么是混淆矩阵？它显示了实际值和预测值之间的差异。它告诉我们有多少数据点被正确预测，哪些数据点没有被正确预测。对于多分类…

人工智能 2023年6月30日
0040
PytorchCNN图片识别和分类模型训练框架

PytorchCNN图片识别和分类模型训练框架文章目录 PytorchCNN图片识别和分类模型训练框架前言一、图片数据集预处理二、模型训练 * 1.transforms.C…

人工智能 2023年7月2日
0093
【离散数学】集合与关系

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0099
100天精通Python（进阶篇）——第42天：pdfplumber读取PDF写入Excel

### 回答1：使用 Python 读取 PDF 并写入 Excel，可以使用第三方库，例如： 1. Py PDF_2：用于 _读取 PDF 文件内容 2. pandas：用于…

人工智能 2023年7月15日
0048
什么是V2X？如何通过V2X技术实现5G智慧交通？

关于V2X V2X，即Vehicle to Everything / vehicle to X，车用无线通信技术，是意向以车辆为中心，与周边车辆、设备、基站通信，从而获取实时路况、…

人工智能 2023年6月2日
0092
SHAP解释模型（二）

本文在SHAP解析模型之后，又尝试了一些SHAP新版本的进阶用法，整理并与大家分享． 1 环境配置以下实验使用当前最新版本shap：0.41.0，同时安装xgboost作为预测模…

人工智能 2023年6月15日
00117
pandas+matplotlib数据处理和绘图

1.主要目的对数据进行分类统计将统计后结果进行可视化 2.项目说明 2.1数据说明已有某网店销售数据，数据中分别存储了用户名称、购买日期两列数据，部分数据如下： ; 2.2要…

人工智能 2023年7月7日
0098
时间序列平稳性检验（ADF）和白噪声检验（Ljung-Box）

在对时间序列做预测前，我们要对数据进行一系列检验，主要是检验数据的稳定性和随机性（白噪声检验），本文主要介绍 ADF检验和 Ljung-Box检验 ADF检验 ADF检验即单位根检…

人工智能 2023年6月19日
00109
前后端分离的书本管理系统

目录前言：利用Spring、SpringMvc、Mybatis的结合进行一个简易版的前后端分离的书本管理系统。一、对Spring、SpringMvc、MyBatis——ssm进…

人工智能 2023年6月29日
0087
京东智能客服言犀启发式问答技术探秘

文章作者：邹波、宋双永、孙博秋背景介绍近年来，随着智能客服机器人在电商平台上的使用越来越多，用户满意度和问题解决率已成为评价智能客服服务质量、衡量用户体验的最重要指标，而用户体…

人工智能 2023年5月28日
0090
AI语音之“一句话识别 ”调研分析

背景在这个物联网项目中，需要语音来控制设备，这一部分专门研究了语音。 [En] Voice is needed to control devices in this Intern…

人工智能 2023年5月25日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据挖掘基础学习（1）数据清洗：重复值、缺失值、异常值处理

1.数据预览

2.删除重复记录

1.数据预览

2.缺失值处理

a.删除缺失记录/删除缺失索引

b.删除缺失值

1.数据预览

a.n个标准差法

b.箱线图判别法

2.异常值替换

大家都在看