【数学建模】python建模专用数据清洗代码(本人实践)

2023年7月15日上午1:52 • 人工智能 • 阅读 73

刚入坑的小白可以看一下，大佬勿喷，我也是小白，白的不能再白的那种，所以吧，我把我入坑时候大量搜索的代码，没日没夜调试的代码，能用的以及自己写的代码，给各位汇总，会以每篇文章的形式进行更新，所以各位记得点赞，关注，收藏！(要不然就找不到我了！)

问题一：什么是数据预处理？

答：数据预处理就是将大量的数据进行整齐话，对数据进行清洗，把没用的，或者是异常的（就是坏的）剔除掉，剔除掉呢就是删掉他就行了，然后空白值什么的进行删除就行了，就这么简单（在我建模的历程中没遇到过空白值，哈哈哈哈，看个人吧）

问题二：如何进行数据预处理？

答：数据预处理的方法主要包括去除唯一属性、处理缺失值、属性编码、数据标准化正则化、特征选择、主成分分析等。

一、去除唯一属性

就是简单的id属性，这些属性并不能刻画样本自身的分布规律，所以简单地删除就行了。

二、缺失值处理

（一）缺失值的分类

完全随机缺失：指的是数据的缺失是完全随机的；
随机缺失：指的是数据的缺失不是完全随机的，和完全变量有关；
完全不随机缺失：指的是数据的缺失与不完全变量自身的取值相关；缺失值会使得系统丢失了大量的有用信息，系统所表现出来的不确定性更加显著，系统中蕴含的确定性成分更难把握，包含空值的不完全变量会使得挖掘过程陷入混乱。

（二）缺失值处理的三种方法

直接使用含有缺失值的特征；删除含有缺失值的特征（该方法在包含缺失值的属性含有大量缺失值而仅仅包含极少量有效值时是有效的）；缺失值补全。
删除含有缺失值的特征：若变量的缺失率较高（大于80%），覆盖率较低，且重要性较低，可以直接将变量删除。
(1)均值插补。数据的属性分为定距型和非定距型。如果缺失值是定距型的，就以该属性存在值的平均值来插补缺失的值；如果缺失值是非定距型的，就根据统计学中的众数原理，用该属性的众数(即出现频率最高的值)来补齐缺失的值。
Ps : 定距型数据–数据的中间级，用数字表示个体在某个有序状态中所处的位置，不能做四则运算。例如，”受教育程度”，文盲半文盲=1，小学=2，初中=3，高中=4，大学=5，硕士研究生=6，博士及其以上=7。
(2)利用同类均值插补。同均值插补的方法都属于单值插补，不同的是，它用层次聚类模型预测缺失变量的类型，再以该类型的均值插补。假设X=(X1,X2…Xp)为信息完全的变量，Y为存在缺失值的变量，那么首先对X或其子集行聚类，然后按缺失个案所属类来插补不同类的均值。如果在以后统计分析中还需以引入的解释变量和Y做分析，那么这种插补方法将在模型中引入自相关，给分析造成障碍。
(3)极大似然估计（Max Likelihood ,ML）。在缺失类型为随机缺失的条件下，假设模型对于完整的样本是正确的，那么通过观测数据的边际分布可以对未知参数进行极大似然估计（Little and Rubin）。这种方法也被称为忽略缺失值的极大似然估计，对于极大似然的参数估计实际中常采用的计算方法是期望值最大化(Expectation Maximization，EM）。该方法比删除个案和单值插补更有吸引力，它一个重要前提：适用于大样本。有效样本的数量足够以保证ML估计值是渐近无偏的并服从正态分布。但是这种方法可能会陷入局部极值，收敛速度也不是很快，并且计算很复杂。
(4)多重插补（Multiple Imputation，MI）。多值插补的思想来源于贝叶斯估计，认为待插补的值是随机的，它的值来自于已观测到的值。具体实践上通常是估计出待插补的值，然后再加上不同的噪声，形成多组可选插补值。根据某种选择依据，选取最合适的插补值。
多重插补方法分为三个步骤：①为每个空值产生一套可能的插补值，这些值反映了无响应模型的不确定性；每个值都可以被用来插补数据集中的缺失值，产生若干个完整数据集合。②每个插补数据集合都用针对完整数据集的统计方法进行统计分析。③对来自各个插补数据集的结果，根据评分函数进行选择，产生最终的插补值。
假设一组数据，包括三个变量Y1，Y2，Y3，它们的联合分布为正态分布，将这组数据处理成三组，A组保持原始数据，B组仅缺失Y3，C组缺失Y1和Y2。在多值插补时，对A组将不进行任何处理，对B组产生Y3的一组估计值（作Y3关于Y1，Y2的回归），对C组作产生Y1和Y2的一组成对估计值（作Y1，Y2关于Y3的回归）。
当用多值插补时，对A组将不进行处理，对B、C组将完整的样本随机抽取形成为m组（m为可选择的m组插补值），每组个案数只要能够有效估计参数就可以了。对存在缺失值的属性的分布作出估计，然后基于这m组观测值，对于这m组样本分别产生关于参数的m组估计值，给出相应的预测即，这时采用的估计方法为极大似然法，在计算机中具体的实现算法为期望最大化法（EM）。对B组估计出一组Y3的值，对C将利用 Y1,Y2,Y3它们的联合分布为正态分布这一前提，估计出一组(Y1，Y2）。
上例中假定了Y1,Y2,Y3的联合分布为正态分布。这个假设是人为的，但是已经通过验证（Graham和Schafer于1999），非正态联合分布的变量，在这个假定下仍然可以估计到很接近真实值的结果。
多重插补和贝叶斯估计的思想是一致的，但是多重插补弥补了贝叶斯估计的几个不足。
1)贝叶斯估计以极大似然的方法估计，极大似然的方法要求模型的形式必须准确，如果参数形式不正确，将得到错误得结论，即先验分布将影响后验分布的准确性。而多重插补所依据的是大样本渐近完整的数据的理论，在数据挖掘中的数据量都很大，先验分布将极小的影响结果，所以先验分布的对结果的影响不大。
2)贝叶斯估计仅要求知道未知参数的先验分布，没有利用与参数的关系。而多重插补对参数的联合分布作出了估计，利用了参数间的相互关系。
以上四种插补方法，对于缺失值的类型为随机缺失的插补有很好的效果。两种均值插补方法是最容易实现的，也是以前人们经常使用的，但是它对样本存在极大的干扰，尤其是当插补后的值作为解释变量进行回归时，参数的估计值与真实值的偏差很大。相比较而言，极大似然估计和多重插补是两种比较好的插补方法，与多重插补对比，极大似然缺少不确定成分，所以越来越多的人倾向于使用多值插补方法。

（5）插值法填充

包括随机插值，多重差补法，热平台插补，拉格朗日插值，牛顿插值等

（6）模型填充

使用回归、贝叶斯、随机森林、决策树等模型对缺失数据进行预测。

上述内容参考知乎[酒仙美嘉雪]的《数据分析中缺失值的处理方法》，数据分析中缺失值的处理方法 – 知乎，以及CSDN[marsjhao]的《机器学习算法笔记之6：数据预处理》，https://blog.csdn.net/marsjhao/

上面部分节选的是机器学习（三）：数据预处理–数据预处理的基本方法 – 知乎 (zhihu.com)

其实主要就是

缺失值查找
缺失值删除
缺失值填充

就这三步骤

下面我们就要开始在我们python中进行了！我们先导入我们的库！

import pandas as pd
import numpy as np

这个呢就是pandas库的调用来读取我们的excel表格， numpy库呢就是对数组进行处理的，所以一般都是先调用到这两个库，as的意思就是类似于一个简写让后面调用库的时候简单话

好了我们来导入我们的数据

df =pd.read_excel(r'C:\Users\14927\Desktop\&#x6570;&#x636E;.xls',sheet_name = 'Sheet1')  #&#x8BFB;&#x53D6;&#x6570;&#x636E;
#&#x5982;&#x679C;&#x662F;cvs&#x6587;&#x4EF6; read_cvs

这个sheet_name也可以不写他就是用来定位你的工作表单的如果你想定位在第二个表单那就改预先相对应的名字就可以了，默认不写就是第一个表单，看下面的图吧

是吧很详细了吧，好啦，我们导入数据之后，我们先对空值进行检索，就是数据查找空值

df.info()

就这一行代码就可以了，你也不用去理解他的原理，你就输入进去，运行就是了

如何跑出来结果

我把数据做成了这样大家看一下就可以了，好啦我们现在对我们的空值进行定位

df.isnull()

然后输入的结果

x y
0 False False
1 False False
2 False False
3 False False
4 False False
5 False False
6 False False
7 False False
8 False False
9 False False
10 False False
11 False True
12 False False
……….

后面我就不写了太长了，各位看到true就是我们的空值

对于这种值我们一般直接删除就行了，对数据影响不大

&#x4F7F;&#x7528;dropna(0)&#x51FD;&#x6570;&#x5220;&#x9664;&#x6240;&#x6709;&#x542B;Nan&#x7A7A;&#x503C;&#x7684;&#x884C;
df.dropna()

对于缺失的我们也可以用平均值等进行填充

#&#x4F7F;&#x7528;fillna&#x51FD;&#x6570;&#x586B;&#x5145;&#x7A7A;&#x503C;
df.fillna(0)

这样填进去的就是0了

然后我们可以指定位置进行填充

#&#x6307;&#x5B9A;&#x5217;&#x7528;&#x6307;&#x5B9A;&#x503C;&#x586B;&#x5145;
df.fillna({'y':'2022'})

这样就可以了

三、重复值的处理

一样重复上面的操作进行导入数据

然后

df.drop_duplicates()  #&#x6CA1;&#x6709;&#x8BBE;&#x7F6E;&#x9ED8;&#x8BA4;&#x5168;&#x5217;&#x91CD;&#x590D;&#x884C;&#x7684;&#x5220;&#x9664;&#xFF0C;&#x6709;&#x91CD;&#x590D;&#x5217;&#x9700;&#x8981;&#x8FDB;&#x884C;&#x8BBE;&#x7F6E;

这里我就不上数据图了，各位有不懂的评论回复留言我吧，

然后我们根据定位列去除重复值

df.drop_duplicates(subset='&#x4F60;&#x7684;&#x5217;&#x7684;&#x7D22;&#x5F15;')

四、异常值得检测与处理

就是不正常的数据喽，解决方法

删除；
用正常值替换；（replace函数）
研究数据异常的原因；

replace函数

df1=df["&#x5217;&#x7684;&#x7D22;&#x5F15;"].replace("&#x76EE;&#x6807;","&#x66FF;&#x6362;&#x5185;&#x5BB9;")

这样基本就完成了哦！

然后总结运行，下面就是我们的总结代码啦！各位拿到数据可以直接运行就可以了！

交论文时候别交我这个哈，切记，切记，切记！

import pandas as pd#&#x8C03;&#x7528;&#x5E93;

df =pd.read_excel(r'C:\Users\14927\Desktop\&#x6570;&#x636E;.xls)  #&#x8BFB;&#x53D6;&#x6570;&#x636E;
#&#x5982;&#x679C;&#x662F;cvs&#x6587;&#x4EF6; read_cvs

print(df.head(5))       #&#x5F97;&#x5230;&#x6570;&#x636E;&#x7684;&#x524D;&#x4E94;&#x884C; &#x8FDB;&#x884C;&#x5224;&#x65AD;

print(df.info())       #&#x5F97;&#x5230;&#x6570;&#x636E;&#x6574;&#x4F53;&#x7684;&#x683C;&#x5F0F;

print(df.duplicated()) #&#x67E5;&#x8BE2;&#x91CD;&#x590D;&#x503C; &#x6B64;&#x6570;&#x636E;&#x6CA1;&#x6709;&#x91CD;&#x590D;&#x503C;

print(df.isnull())  #&#x67E5;&#x7F3A;&#x5931;&#x503C; &#x6B64;&#x6570;&#x636E;&#x6CA1;&#x6709;&#x7F3A;&#x5931;&#x503C;

#&#x6B64;&#x4EE3;&#x7801;&#x662F;&#x5EFA;&#x6A21;&#x524D;&#x671F;&#x6570;&#x636E;&#x9884;&#x5904;&#x7406;&#x7684;&#x4EE3;&#x7801;
#&#x6709;&#x4E00;&#x4E9B;&#x81EA;&#x5DF1;&#x52A0;&#x4E00;&#x4E0B;&#x5427;&#xFF0C;&#x61C2;&#x5F97;&#x90FD;&#x61C2;&#x54C8;&#xFF0C;&#x54C8;&#x54C8;&#x54C8;&#x54C8;&#x54C8;&#xFF0C;&#x60F3;&#x8981;&#x7684;&#x7559;&#x8A00;&#x8BC4;&#x8BBA;&#x6211;&#x79C1;&#x53D1;

Original: https://blog.csdn.net/xiaobo6122/article/details/124230838
Author: 小白波612
Title: 【数学建模】python建模专用数据清洗代码(本人实践)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/693307/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Oracle Database 19c 新特性之 ANY_VALUE 聚合函数

ANY_VALUE 函数是 Oracle 19c 新增的一个聚合函数，可以为分组操作之后的每个组返回一个任意值，可以解决查询字段不属于 GROUP BY 字段的问题。 SELECT…

人工智能 2023年7月29日
0061
目标检测：RCNN-＞Fast RCNN-＞Faster RCNN

一、RCNN RCNN（Region with CNN feature）是深度卷积神经网络应用于目标检测问题的一个里程碑的飞跃。2014年提出的，之前都是传统的检测算法。算法步骤…

人工智能 2023年7月12日
0055
TensorRT8——ONNX转trt（C++)

TensorRT安装首先需要确保正确安装CUDA，安装后通过nvcc -V验证是否安装。下载TensorRT网址：https://developer.nvidia.com/nv…

人工智能 2023年6月2日
0091
人工智能：智能语音技术应用场景介绍

智能语音技术是市场上人工智能产品应用最为广泛的技术，今天给大家聊聊智能语音技术常见的应用场景，希望对大家能有所帮助！智能客服智能客服是基于大规模知识处理基础上发展起来的，它具有…

人工智能 2023年7月25日
00119
SQL和Python 哪个更容易自学?

当然是SQL，无论是文科还是理科，这个答案都是毋庸置疑的。看了很多回答，竟然有人说二者差不多，甚至有的回答为了博眼球说SQL比Python要难，真实误人子弟，害人不浅。下面，就…

人工智能 2023年7月15日
0058
CDH大数据平台 27Cloudera Manager Console之superset之Python相关包安装(markdown新版一)

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月3日
00110
Keras CIFAR-10分类 SVM 分类器篇

; Keras CIFAR-10图像分类（SVM 分类器）文章目录 Keras CIFAR-10图像分类（SVM 分类器） * keras介绍 – keras具有的特…

人工智能 2023年7月1日
0093
sklearn库——线性回归模型

简单线性回归多元线性回归分类变量转换成虚拟变量对statsmodels库的整理可以与sklearn库的整理互相参考借鉴简单线性回归 from sklearn import …

人工智能 2023年6月11日
00111
目标检测网络之 Mask R-CNN

Mask R-CNN 论文Mask R-CNN(ICCV 2017, Kaiming He,Georgia Gkioxari,Piotr Dollár,Ross Girshick,…

人工智能 2023年6月4日
0082
Opencv中的开运算和闭运算操作讲解（python实现）

文章目录 * – 1.首先了解腐蚀和膨胀原理 – 2.开运算 – + （1）为什么开运算可以去白噪点呢？ + （2）.函数讲解 + （3）代码实…

人工智能 2023年5月26日
00100
Sublime合并生成,同时编辑三页代码和文本框

Sublime合并生成,同时编辑三页代码和文本框 Sublime Merge是应用程序工具的名称，当然，它对编程非常有用。事实上，一个文本编辑器和一个非常简单的代码非常方便，当然功…

人工智能 2023年6月27日
0079
如何使用正则表达式提取指定标签的指定属性值

中文名: 正则表达式_经典实例原名: Regular Expression Cookbook 作者: (美)高瓦特斯(Goyvaerts,J.) (美)利维森(Levithan,…

人工智能 2023年6月28日
00118
Python 使用OpenCV计算机视觉（一篇文章从零毕业）【附带OCR文字识别项目、停车场车位智能识别项目】

OpenCV计算机视觉文章目录 OpenCV计算机视觉 * 1、参考文档 2、环境详情 3、安装 – 安装opencv-python + 报错install pypr…

人工智能 2023年7月18日
0060
YOLOV5超参数设置与数据增强解析

1、YOLOV5的超参数配置文件介绍 YOLOv5有大约30个超参数用于各种训练设置。它们在*xml中定义。/data目录下的Yaml文件。更好的初始猜测将产生更好的最终结果，因此…

人工智能 2023年6月23日
0089
LeetCode136. 只出现一次的数字

给定一个非空整数数组，除了某个元素只出现一次以外，其余每个元素均出现两次。找出那个只出现了一次的元素。说明：你的算法应该具有线性时间复杂度。你可以不使用额外空间来实现吗？…

人工智能 2023年6月26日
00123
【PyTorch_VGG16】Pytorch实现VGG16，在Cifar10上做分类，91%精度

实验目的是为后续的转换SNN网络，写一个基础的ANN，所以ANN的结构存在一些限制 1.均没有使用偏置Bias（在Conv2d和Linear） 2.没有使用Batch Norma…

人工智能 2023年7月22日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31