1.什么是数据清洗?
在获得数据后并不能直接进行数据分析处理,为什么?因为得到的数据不一定完全准确,直接使用这些数据进行分析的话可能会产生不小的偏差。所以,我们需要数据清洗这个步骤。
总而言之,数据清洗是要对脏数据进行处理。脏数据包括缺失的数据,异常的数据和不一致的数据三种。先讨论缺失值处理方法。
2.缺失值处理的方法
缺失值处理方法大致思路是删除法和插补法。
缺失值处理的删除法
删除法顾名思义,就是将含有缺失数据的整一条数据全部删去。这种做法简单粗暴,简单在于十分省时,粗暴在浪费大量数据。这是种办法,但一般不会采用这种办法。
缺失值处理的插补法(4种)
- 使用某种统计量填入缺失位置,例如众数、算数平均数、中位数之类的。称为替换法。
- 最近邻插补法,通过该条数据已有的数据据项进行对比,用最相似的条目的数据填入。
- 回归法,通过数据变量间的相关关系回归分析,猜测出缺失值。
- 最后,针对时间序列问题。可以使用样条插值和牛顿插值法。
这里附上牛顿插值法的代码:
#include
using namespace std;
void main()
{
float x[11],y[11][11],xx,temp,newton;
int i,j,n;
printf("Newton插值:\n请输入要运算的值:x=");
cin >> x;
printf("请输入插值的次数(n> n;
printf("请输入%d组值:\n",n+1);
for(i=0;i
3.异常值分析和处理方法
首先我们要想办法检测出哪些值是异常值。异常值即输入错误以及不合理的数值。异常值检测一般有一下三个方法:简单统计量分析、3
准则、箱型图分析。简单统计量分析
计算统计量值,常见的就是看最大最小值是否合理。
3 准则
是正态分布的参数,所谓3准则就算是将不落在正负 3内的值认为是异常值,应为它们发生的概率为0.3%。箱型图分析
箱型图分析是最常用的。将箱型图之外的数认为是异常值。具体计算方法如下图所示。
END
Original: https://blog.csdn.net/qq_41938259/article/details/122365758
Author: TIM33470348
Title: 数据清洗的主要办法
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/693431/
转载文章受原作者版权保护。转载请注明原作者出处!