数据清洗：缺失值识别和处理方法

2023年6月19日下午7:54 • 人工智能 • 阅读 119

缺失值识别

数据缺失分为两种：一是行记录的缺失；二是列值的缺失。

不同的数据存储和环境中对于缺失值的表示不同，例如数据库中是Null、Python返回对象是None、Pandas或Numpy中是NaN。

构造数据：

#导入相关库
import pandas as pd
import numpy as np

生成缺失数据
df = pd.DataFrame(np.random.randn(6, 4),
                  columns=['col1', 'col2', 'col3', 'col4'])
df.iloc[:, 1] = np.nan
df.iloc[4, 3] = np.nan
print(df)

查看缺失值：

查看哪些值缺失，缺失值返回True
nan_all = df.isnull()
print(nan_all)
print()
查看哪些列缺失
nan_col1 = df.isnull().any()  # 含有NA的列返回True
nan_col2 = df.isnull().all()  # 全部为NA的列返回True
print(nan_col1)
print(nan_col2)
print()
查看哪些行缺失
nan_row1 = df.isnull().any(axis=1)  # 含有NA的行返回True
nan_row2 = df.isnull().all(axis=1)  # 全部为NA的行返回True
print(nan_row1)
print(nan_row2)
print()

查看每列缺失值个数
print(df.isnull().sum())
查看每列未缺失值个数，等价于df.count()
print(df.notnull().sum())

缺失值处理方式

通常有四种思路：

1.丢弃

直接丢弃带有缺失值的行记录（整行删除）或者列字段（整列删除）。优点：方法简单明了，减少缺失数据对总体数据的影响。缺点：会消减数据特征。

以下任意一种场景都不宜丢弃缺失值：

数据集总体中存在大量的数据记录不完整情况且比例较大，例如超过10%，删除这些带有缺失值的记录意味着将会损失过多有用信息。
带有缺失值的数据记录存在着明显的数据分布规律或特征，例如带有缺失值的数据记录的目标标签主要集中于某一类或几类，如果删除这些数据记录将使对应分类的数据样本丢失大量特征信息，导致模型过拟合或分类不准确。

丢弃缺失值
print(df.dropna())            # 直接丢弃含有NA的行记录，默认axis=0,how='any'
print(df.dropna(how='all'))   # 直接丢弃全部值为NA的行记录
print(df.dropna(axis=1))             # 直接丢弃含有NA的列记录
print(df.dropna(axis=1,how='all'))   # 直接丢弃全部值为NA的列记录

2.补全

相对丢弃而言，补全是更加常用的缺失值处理方式，通过一定的方法将缺失的数据补上，从而形成完整的数据记录，对于后续的数据处理、分析和建模至关重要。

常用的补全方法包括：

统计法：对于数值型的数据，使用均值、加权均值、中位数等方法补足；对于分类型数据，使用众数等方法补足。
模型法：可以基于已有的其他字段，将缺失字段作为目标变量进行预测，从而得到较为可能的补全值。如果带有缺失值的列是数值变量，采用回归模型补全；如果是分类变量，则采用分类模型补全。
专家补全：对于少量且具有重要意义的数据记录，专家补足也是非常重要的一种途径。
其他方法：例如随机法、特殊值法、多重填补等。

引入sklearn包
from sklearn.impute import SimpleImputer
建立模型规则：strategy默认mean,也可设置为median或most_frequent
nan_model = SimpleImputer(missing_values=np.nan, strategy='mean')
nan_result = nan_model.fit_transform(df)
print(nan_result)

#由于col2列全部为nan值，无法应用模型规则，col4列缺失值可以应用模型规则

使用pandas替换缺失值

用后面的值替换缺失值，或者用bfill
print(df.fillna(method='backfill'))
用后面的值替代缺失值,限制每列只能替代一个缺失值
print(df.fillna(method='backfill', limit=1))
用前面的值替换缺失值，或者用ffill
print(df.fillna(method='pad'))

用特定值替换缺失值，比如0，也可直接使用df.replace(np.nan,0)
print(df.fillna(0))
fillna函数传入字典，用不同值替换不同列的缺失值
print(df.fillna({'col2': 1.1, 'col4': 1.2}))
用平均数mean代替,选择各自列的均值替换缺失值，也可用中位数median或众数mode
print(df.fillna(df.mean()))

插值填充，默认线性填充
print(df.interpolate())

3.真值转换法

某些情况下，我们可能无法得知缺失值的分布规律，并且对于缺失值无法采用上述任何一种方法做处理；或者我们认为数据缺失也是一种规律，不应该轻易对缺失值随意处理，那么还有一种缺失值处理思路——真值转换。

数据缺失也是数据分布规律的一部分，将变量的实际值和缺失值都作为输入维度参与后续数据处理和模型计算中，然而缺失值通常无法参与直接运算，因此需要将缺失值进行真值转换。

4.不处理

在数据预处理阶段，对于具有缺失值的数据记录不作任何处理，也是一种思路。很多模型对于缺失值有容忍度或灵活的处理方法，因此在预处理阶段可以不做处理。

常见的能够自动处理缺失值的模型包括：KNN、决策树和随机森林、神经网络和朴素贝叶斯、DBSCAN等。这些模型对于缺失值的处理思路是：

忽略，缺失值不参与距离计算，例如KNN。
将缺失值作为分布的一种状态，并参与到建模过程，例如各种决策树及其变体。
不基于距离做计算，因此基于值的距离计算，本身的影响就消除了，例如DBSCAN。

说明：在数据建模前的特征选择阶段，假如我们通过一定方法确定带有缺失值的字段对于模型的影响非常小，那么我们根本就不需要对缺失值进行处理。因此，后期建模时的字段或特征的重要性判断也是决定是否处理字段缺失值的重要参考因素之一。

参考资料：《Python数据分析与数据化运营》宋天龙

Original: https://blog.csdn.net/sinat_41928169/article/details/124417344
Author: 大哇唧
Title: 数据清洗：缺失值识别和处理方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640090/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Google Colab装载Google Drive（Google Colab中使用Google Drive）

文章目录为什么要在Google Colab中使用Google Drive 装载Google Drive 从Google Drive中下载文件写入文件到Google Drive …

人工智能 2023年6月25日
0091
VLookup函数详细教程

Excel数据匹配：VLookup函数详解与实操引言实现效果 Vlookup函数实操提示引言在Excel中如果想要寻找某个数据，那很简单，直接运用Ctrl+F即可找到我们…

人工智能 2023年7月15日
0031
【增减维度】numpy和torch中的squeeze、unsqueeze理解

神经网络conv2d的输入必须是四维的（batch,channel,height,width），前处理或者后处理通常需要维度扩充或者维度压缩，必须维度匹配！一个减少维度，一个增加维…

人工智能 2023年7月6日
0097
opencv 曲线拟合

最小二乘法多项式曲线拟合原理与实现最小二乘法多项式曲线拟合原理与实现_JairusChan的技术博客-CSDN博客_曲线拟合的最小二乘法算法+OpenCV】基于opencv的直线…

人工智能 2023年5月26日
0095
数据压缩1 | 浊音&清音&爆破音时域及频域特性

浊音&清音&爆破音时域及频域特性分析概念区别浊音时域及频域特性清音时域及频域特性爆破音时域及频域特性总结概念区别当气流通过声门时，如果声带的张力恰好使…

人工智能 2023年5月27日
0073
MSS3.3一款用于数理模型统计服务的软件

无需编程也可运用统计学模型面向纯小白软件均为一键操作出结果每一种方法好好写，都有可能是一篇核心论文！！！（发论文的利器，点击推文左下角【阅读原文】获取软件+教程） Math…

人工智能 2023年6月18日
0084
Windows平台使用Bazel编译TensorFlow详细流程

目录 * – 前期准备 – + 硬件 + 软件 – 编译步骤 – + 1.安装python依赖 + 2. 下载并添加Bazel到环境…

人工智能 2023年5月26日
00107
【PyTorch深度学习项目实战100例】—— 使用文心大模型ERNIE-ViLG生成图片 | 第1例

大家好，我是阿光。本专栏整理了《PyTorch深度学习项目实战100例》，内包含了各种不同的深度学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。正在更…

人工智能 2023年7月27日
0048
Torch 模型 onnx 文件的导出和调用

Open Neural Network Exchange (ONNX，开放神经网络交换) 格式，是一个用于表示深度学习模型的标准，可使模型在不同框架之间进行转移 Torch 所定义…

人工智能 2023年6月17日
0080
一起用Python做个车牌自动识别系统，好玩又实用！

前言前段时间，用PyQt5写了两篇文章，关于Python自制一款炫酷音乐播放器、自定义桌面动画挂件。有粉丝问我，为什么要用PyQt5？之前没接触过PyQt5，能不能多分享一些这方…

人工智能 2023年6月17日
0098
Pytorch CIFAR10图像分类 Vision Transformer（ViT）篇

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月21日
0032
数据预处理概述

目录 1、数据预处理的必要性 2、数据预处理的主要任务 1、数据预处理的必要性数据预处理技术是数据分析以及数据挖掘过程中非常重要的一环。数据预处理是指在对数据进行数据挖掘的主要处…

人工智能 2023年6月19日
0084
Pandas-数据操作-数值型（二）：累计统计函数【cumsum、cumprod、cummax、cummin】【计算前1/2/3/…/n个数的和、积、最大值、最小值】

一、累计统计函数函数作用 cumsum 计算前1/2/3/…/n个数的和 cummax 计算前1/2/3/…/n个数的最大值 cummin 计算前1/2/…

人工智能 2023年7月9日
0071
python ARIMA时间序列分析之forecast 、predict and get_prediction

时间序列分析-2 forecast 、predict forecast and get_forcast、predict and get_predictionforecast 参数s…

人工智能 2023年6月15日
00107
深度学习matlab图像分类，手把手教程系列

文章目录 * – 一、提取要训练的数据 – 二、选择预训练网络 – 三、加载数据集 – 四、编辑迁移学习网络 – 五、检…

人工智能 2023年7月13日
0052
机器学习实战 | Python机器学习算法应用实践

作者：韩信子@ShowMeAI教程地址：https://www.showmeai.tech/tutorials/41本文地址：https://www.showmeai.tech/a…

人工智能 2023年6月13日
0072

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30