数据挖掘中的常见数据预处理方法总结

2023年6月4日下午2:25 • 人工智能 • 阅读 101

一 . 基本概念

为什么需要数据预处理：

现实世界中数据大体上都是不完整，不一致的脏数据，无法直接进行数据挖掘，或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术

数据：数据对象及其属性的集合

属性值是分配给属性的数字或符号

属性和属性值的区别 – 相同的属性可以映射到不同的属性值

– 不同的属性可以映射到同一组值

属性值的类型：

属性的类型取决于它拥有以下哪些属性：独特性（可以判断等于和不等）；顺序；加法；乘法

标称属性：独特性

序数属性：独特性和顺序

区间属性：独特性、顺序和加法(比如温度)

比率属性：所有 4 个属性（比如长度）

数据集的类型：

记录数据，图数据，顺序数据

顺序数据举例：

基因组序列数据；

时间-空间数据：

属性的模式（众数）是出现频率最高的属性值

百分位数：对于连续数据，百分位数的概念更有用，给定一个有序或连续的属性 x 和一个 0到100 之间的数字p，第p个百分位数是一个值 x 使得 p%的值小于 x 的观测值

第二个四分位数 = 第 50 个百分位数 = 中位数

第三个四分位数 = 第 75 个百分位数

五数总结法：最低 – 第 1 个四分位数 – 中位数 – 第三个四分位数 – 最大值，可用箱形图表示

散点图：属性值两两配对作图，可用于发现属性间的关系

矩阵的每个值是其行坐标与列坐标的相似性

平行坐标图：

每一条折线代表一个实例，横坐标是不同的属性

数据质量问题：

噪音：噪声是指对原始值的修改

异常值：异常值是具有与数据集中的大多数其他数据对象显着不同的特征的数据对象

缺失值

重复数据

数据质量的衡量标准 :

● 准确性：正确或错误，准确与否

● 完整性：未记录、不可用、……

● 一致性：一些修改但一些没有，悬空，

● 及时性：及时更新？

● 可信度：数据正确的可信度如何？

● 可解释性：数据有多容易被理解？

数据预处理

数据清洗

清理缺失数据：

●忽略元组：通常在缺少类标签时完成（进行分类时）——当每个属性的缺失值百分比变化很大时无效

● 手动填写缺失值：乏味+不可行？

● 自动填写

– 一个全局常量：例如，”未知”，一个新类

– 属性均值

– 属于同一类的所有样本的属性均值：更聪明

– 最可能的值：基于推理，如贝叶斯公式或决策树

– 替换为所有可能的值（按概率加权）

清理噪声数据：

● 分箱 – 首先对数据进行排序并将其划分为等频箱 – 然后可以通过分箱方法平滑，比如通过分箱中值平滑，通过分箱边界平滑等。

举例：

价格的排序数据（以美元计）：4, 8, 9, 15, 21, 21, 24, 25, 26, 28, 29, 34

划分为等频（等深度）箱： – 箱 1：4、8、9、15 – 箱 2：21、21、24、25 – 箱 3：26、28、29、34

按 bin 平滑意味着： – 箱 1: 9, 9, 9, 9 – 箱 2：23、23、23、23 – 箱 3: 29, 29, 29, 29

按 bin 边界平滑： – 箱 1: 4, 4, 4, 15 – 箱 2：21、21、25、25 – 箱 3：26、26、26、34

● 回归 – 通过将数据拟合到回归函数中来平滑

● 聚类

● 结合计算机和人工检查

清理不一致的数据更复杂 ● 使用依赖，比如函数依赖 ● 使用人工编译的规则

识别或移除异常值

数据集成

多个数据库、数据立方体或文件的集成（不介绍）

数据缩减

概念：获得数据集的缩减表示，该表示的数量要小得多，但仍会产生相同（或几乎相同）的分析结果

为什么要减少数据？ 数据库可能存储数 TB 的数据。复杂的数据分析可能需要很长时间才能在完整的数据集上运行

维度诅咒：如果您在单位正方形中随机选择一个点，它与边界距离小于 0.001 的几率只有 0.4%，可以计算这个值在单位线段时是0.2%，单位立方体时是0.6%，在一个 1000 维的单位超立方体中，这个概率大于 99.999999%，因此高维超立方体中的大多数点都非常靠近边界。如果您考虑足够多的维度，那么您认识的任何人都可能是至少一个维度的极端分子。当维数增加时，数据在它占据的空间中变得也越来越稀疏，这样对聚类和异常值检测至关重要的点之间的密度和距离的定义变得没有意义。

数据缩减策略

降维：

数据处于或接近低维子空间，用矩阵表示的话，秩就是维度

数量减少

数据压缩：降维和数量减少也可以被认为是数据压缩的形式，此外还有字符串压缩，音视频压缩

数据转换

归一化：缩放到更小的指定范围内

– 最小-最大归一化

– z-score 归一化

– 十进制归一化

属性/特征构建 – 从给定的属性构造的新属性

聚合：汇总、数据立方体构建

离散化：概念层次爬升

分箱，直方图分析，聚类分析，决策树分析，相关性分析

分箱（简单离散化方法）：

等宽分箱，将范围分成大小相等的N个区间（均匀网格）

等深度（频率）分箱，将范围划分为 N 个区间，每个区间包含大约相同数量的样本

离散区间的大小影响支持度和置信度

– 如果间隔太小,可能没有足够的支持

– 如果间隔太大,可能没有足够的置信度

可能的解决方案：使用所有可能的间隔

平滑：从数据中去除噪声

二 . 常见数据降维方法

（ 1 ）主成分分析

PCA 的本质：

一是，要考虑去除掉特征之间的相关性，想法是创造另一组新的特征来描述样本，并且新的特征必须彼此之间不相关。

二是，在新的彼此无关的特征集中，舍弃掉不重要的特征，保留较少的特征，实现数据的特征维度降维，保持尽量少的信息损失

一种PCA的方法：

第 1 步：将数据集围绕原点居中

第 2 步：计算 STS

第 3 步：找到 C 的特征值和特征向量

第 4 步：将数据集投影到新空间

然后可以把方差最小的那个维度去掉

该算法的解释：（不同特征值对应的特征向量线性无关，对于实对称阵是正交的）

SVD4PCA:

SVD也是对矩阵进行分解，但是和特征分解不同，SVD并不要求要分解的矩阵为方阵。假设我们的矩阵A是一个m×n的矩阵，那么我们定义矩阵A的SVD为：

V（右奇异向量）的列是 ATA 的特征向量

U（左奇异向量）的列是 AAT的特征向量

Σ的对角线上的元素（奇异值）是 ATA（或 AAT(只是相差了几个0)）的特征值的平方根

这里我们用一个简单的例子来说明矩阵是如何进行奇异值分解的。我们的矩阵A定义为：

首先求出

进而求出ATA的特征值和特征向量：

接着求出AAT的特征值和特征向量：

最终得到A的奇异值分解为：

对于奇异值,它跟我们特征分解中的特征值类似，在奇异值矩阵中也是按照从大到小排列，而且奇异值的减少特别的快，在很多情况下，前10%甚至1%的奇异值的和就占了全部的奇异值之和的99%以上的比例。

也就是说，我们也可以用最大的k个的奇异值和对应的左右奇异向量来近似描述矩阵。

如下图所示，现在我们的矩阵A只需要灰色的部分的三个小矩阵就可以近似描述了。

由于这个重要的性质，SVD可以用于PCA降维，来做数据压缩和去噪。也可以用于推荐算法，将用户和喜好对应的矩阵做特征分解，进而得到隐含的用户需求来做推荐。同时也可以用于NLP中的算法，比如潜在语义索引（LSI）。

左奇异矩阵可以用于行数的压缩。（UΣ，即左边两个矩阵相乘）

右奇异矩阵可以用于列数即特征维度的压缩，也就是我们的PCA降维。(ΣVT，即右边两个矩阵相乘)

SVD作为一个很基本的算法，在很多机器学习算法中都有它的身影，特别是在现在的大数据时代，由于SVD可以实现并行化，因此更是大展身手，SVD的缺点是分解出的矩阵解释性往往不强，有点黑盒子的味道，不过这不影响它的使用。

（ 2 ）属性子集选择

属性消除：

冗余属性 – 例如，产品的购买价格和支付的销售税金额

不相关的属性 – 例如，学生的 ID 通常与预测学生 GPA 的任务无关

属性创建（特征生成）：创建新的属性（特征），可以比原始属性更有效地捕获数据集中的重要信息

– 属性提取：在特定领域

– 将数据映射到新空间，例如，傅里叶变换、小波变换（未涵盖）

– 属性构建：组合特征（判别频繁模式），数据离散化

三 . 计算向量之间的相似性

（1）简单匹配法和jaccard（p和q在各个属性维度只能取0和1）

（2）余弦相似度

二元属性：取值为0或者1的属性，所以也成为布尔属性

对称二元属性：属性的两个状态的权重相同，例如：”性别”这一属性的取值”男性”，”女性”。

非对称二元属性：即状态的权重不相同，例如：”HIV”有”阴性”和”阳性”，阳性比较稀少，更重要。

有时属性有许多不同的类型，但需要整体相似性，使用以下方法：

可以理解为非对称属性上两个向量取相同值，在相似度上应该有更小的说服力

四 .计算属性的相关性

相关不意味着因果（比如一个城市的医院数量和汽车盗窃数量是相关的，两者没有直接的因果，但两者都与第三个变量有因果关系：人口）

（1）Pearson 相关系数

衡量两个数值属性之间的相关性：

性质：

相关系数仅衡量线性相关性，它可能完全错过非线性关系

其中，相关性为1和-1时与其斜率无关

方差：

（2）卡方统计

不同于卡方检验，衡量两个标称属性之间的相关性：

Cij是属性x=xi且属性y=yj的对象数量，卡方越大相关性越强，自由度(m-1)(n-1)

Original: https://www.cnblogs.com/ZihanZhang/p/15765123.html
Author: 张梓寒
Title: 数据挖掘中的常见数据预处理方法总结

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/568396/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLO v5加入注意力机制、swin-head、解耦头部（回归源码）

可关注本人的github，关于opencv一些学习代码: https://github.com/xiaoaleiBLUE 文章目录 YOLO v5加入注意力机制、swin-head…

人工智能 2023年7月25日
0085
openvino 使用 yolov5模型

大家好，我是青空最近在折腾了一个yolov5的模型，然后想使用在openvino上，在这期间踩了不少的坑，记录一下。 yolov5 下载地址 https://github.com…

人工智能 2023年7月10日
0083
C++之Hello World

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月30日
0069
数据类产品设计和实现思路

对数据类产品(或服务)的需求是信息化发展到一定阶段的必然产物, 在信息化时代, 现实世界的大部分活动都已经(或即将)被投射成数据, 在这个大背景下, 数据产品的作用也越来越大. 对…

人工智能 2023年7月17日
0061
随机森林 matlab

Ref: 官方 matlab 已有牛人在前人的基础上进行学习，然后针对具体应用。很容易掌握随机森林法基本概念 Random Forest（随机森林）是Bagging的扩展变…

人工智能 2023年6月15日
00107
学完Python，不做程序员，只接兼职，哎，就是玩儿

现在这个时代，人人开始追求做斜杠青年，多方面开展副业，赚取几份工资。有很多朋友就抓住了Python的风口，靠着Python兼职月入一万。那么学完Python，有哪些可以做的兼职呢？…

人工智能 2023年7月3日
0070
MXNe

MXNet介绍 MXNet是一种深度学习框架，由深度学习组织DMLC于2014年发起开发，后来得到了亚马逊、英伟达、微软等公司的支持和贡献，成为Apache孵化项目。MXNet支持…

人工智能 2023年12月31日
0045
半监督学习算法中的图传播算法和标签传播算法有何区别

问题背景半监督学习是一种机器学习的方法，它利用大量未标记的数据和少量标记的数据来进行模型的训练和预测。其中，图传播算法和标签传播算法是半监督学习中常用的两种方法。本文将详细介绍这…

人工智能 2024年1月1日
0046
python计算平均值画折线图_Python 数据分析测试2 之求平均值及折线图显示

Time: 2020/07/27 Author: Xiaohong 运行环境: OS: Windows 10 Python: 3.7 功能: 导入4份文件(分别对应4个部位)，测算…

人工智能 2023年7月8日
0078
mmdetection ValueError: need at least one array to concatenate解决方案

在mmdetection中有时候训练模型会出现ValueError: need at least one array to concatenate的错误，详情如下图所示。只要配置…

人工智能 2023年6月17日
00180
Android后台执行限制

每次在后台运行时，应用都会消耗一部分有限的设备资源，例如 RAM。这可能会影响用户体验，如果用户正在使用占用大量资源的应用（例如玩游戏或观看视频），影响会尤为明显。为了提升用户…

人工智能 2023年6月28日
0091
带权并查集（poj-1182 食物链）

动物王国中有三类动物A,B,C，这三类动物的食物链构成了有趣的环形。A吃B， B吃C，C吃A。现有N个动物，以1－N编号。每个动物都是A,B,C中的一种，但是我们并不知道它到底是哪…

人工智能 2023年6月27日
0078
Python数据分析入门笔记10——简单案例练习（学生信息分析）

系列文章目录 Python数据分析入门笔记1——学习前的准备 Python数据分析入门笔记2——pandas数据读取 Python数据分析入门笔记3——数据预处理之缺失值 Pyth…

人工智能 2023年6月19日
0090
梯度下降（Gradient descent)算法详解

梯度下降（Gradient descent)算法详解说起梯度下降算法，其实并不是很难，它的重要作用就是求函数的极值。梯度下降就是求一个函数的最小值，对应的梯度上升就是求函数最大值…

人工智能 2023年6月15日
0067
protege和neo4j联系_Neo4j | 实体和关系的合并

实体消歧图数据存储的过程中有时会遇到这样一类问题，对于实体和关系数据而言，在数据预处理或者数据清洗时可以做到实体间是不会重复的(去除重复的数据)；虽然实体不重复，但可能两个实体所…

人工智能 2023年6月1日
00129
数据分析中numpy中基本操作集(含全文章目录)

本博文源于python对numpy操作，内容主要涉及数组的创建、数组的索引与转换数组的排序、数组的组合、数组的统计函数。里面又包含了很多细则：比如如何选取数组中的值、如何求最大值…

人工智能 2023年7月18日
0049