数据清洗的主要办法

1.什么是数据清洗?

在获得数据后并不能直接进行数据分析处理,为什么?因为得到的数据不一定完全准确,直接使用这些数据进行分析的话可能会产生不小的偏差。所以,我们需要数据清洗这个步骤。

总而言之,数据清洗是要对脏数据进行处理。脏数据包括缺失的数据,异常的数据和不一致的数据三种。先讨论缺失值处理方法。

2.缺失值处理的方法

缺失值处理方法大致思路是删除法和插补法。

缺失值处理的删除法

删除法顾名思义,就是将含有缺失数据的整一条数据全部删去。这种做法简单粗暴,简单在于十分省时,粗暴在浪费大量数据。这是种办法,但一般不会采用这种办法。

缺失值处理的插补法(4种)

  1. 使用某种统计量填入缺失位置,例如众数、算数平均数、中位数之类的。称为替换法。
  2. 最近邻插补法,通过该条数据已有的数据据项进行对比,用最相似的条目的数据填入。
  3. 回归法,通过数据变量间的相关关系回归分析,猜测出缺失值。
  4. 最后,针对时间序列问题。可以使用样条插值牛顿插值法

这里附上牛顿插值法的代码:

#include
using namespace std;

void main()
{

    float x[11],y[11][11],xx,temp,newton;
    int i,j,n;

    printf("Newton插值:\n请输入要运算的值:x=");
    cin >> x;

    printf("请输入插值的次数(n> n;

    printf("请输入%d组值:\n",n+1);
    for(i=0;i

3.异常值分析和处理方法

首先我们要想办法检测出哪些值是异常值。异常值即输入错误以及不合理的数值。异常值检测一般有一下三个方法:简单统计量分析、3

数据清洗的主要办法准则、箱型图分析。

简单统计量分析

计算统计量值,常见的就是看最大最小值是否合理。

3 数据清洗的主要办法 准则

数据清洗的主要办法是正态分布的参数,所谓3数据清洗的主要办法准则就算是将不落在正负 3数据清洗的主要办法内的值认为是异常值,应为它们发生的概率为0.3%。

箱型图分析

箱型图分析是最常用的。将箱型图之外的数认为是异常值。具体计算方法如下图所示。

数据清洗的主要办法

END

Original: https://blog.csdn.net/qq_41938259/article/details/122365758
Author: TIM33470348
Title: 数据清洗的主要办法

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/693431/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球