sklearn中的数据预处理方法学习汇总

2023年7月15日上午10:35 • 人工智能 • 阅读 76

文章目录

sklearn中的数据预处理方法学习
*
一、标准化
–
二、非线性转换
–
- 映射到均匀分布
- 映射到高斯分布
三、归一化
–
四、离散值编码
–
- LabelEncoder
- OneHotEncoder
五、生成多项式特征
–
- 多项式特征的作用
- PolynomialFeatures
六、估算缺失值
–
- 估算缺失值的作用
- Imputer

sklearn中的数据预处理方法学习

我们一般开始拿到的数据并非是方便我们后期分析的类型，因此需要我们进行数据的预处理。 sklearn.preprocessing包提供了几个常用的函数和转换类，用它们将一个原始的特征向量转化为一个更适于数据分析的表示形式。一般来说，学习算法收益于数据集的标准形式。如果数据中存在异常点，稳健的数据规范或转换是更适合的。
这里整理了一些常用的数据预处理方法，不过更多的是在介绍如何使用，而没有具体说在哪里使用，因此需要自己判断使用的情况，后面如果有机会，会把每个方法的详细介绍补上去。

一、标准化

对于大多数数据挖掘算法来说，数据集的标准化是基本要求。 如果特征不服从或者近似服从标准正态分布（即，零均值、单位标准差的正态分布）的话，算法的表现会大打折扣。例如，我们经常忽略数据的分布形状，而仅仅做零均值、单位标准差的处理。在一个机器学习算法的目标函数里的很多元素所有特征都近似零均值，方差具有相同的阶。如果某个特征的方差的数量级大于其它的特征，那么，这个特征可能在目标函数中占主导地位，这使得模型不能从其它特征有效地学习。

; Z-score标准化

Z-score标准化学习

想系统了解点这里：Z-score是什么.下面是简要的介绍：

Z-Score标准化是数据处理的一种常用方法。通过它能够将不同量级的数据转化为统一量度的Z-Score分值进行比较。数据分析与挖掘中，很多方法需要样本符合一定的标准，如果需要分析的诸多自变量不是同一个量级，就会给分析工作造成困难，甚至影响后期建模的精准度。

举例来说，假设我们要比较A与B的考试成绩，A的考卷满分是100分（及格60分），B的考卷满分是700分（及格420分）。很显然，A考出的70分与B考出的70分代表着完全不同的意义。但是从数值来讲，A与B在数据表中都是用数字70代表各自的成绩。

那么如何能够用一个同等的标准来比较A与B的成绩呢？Z-Score就可以解决这一问题。

这种方法基于原始数据的均值 mean和标准差 standard deviation进行数据的标准化。将特征 A的原始值 x使用 z-score标准化到 x’。 z-score 标准化方法适用于特征 A 的最大值和最小值未知的情况，或有超出取值范围的离群数据的情况。将数据按其特征(按列进行)减去其均值，然后除以其方差。最后得到的结果是，对每个特征/每列来说所有数据都聚集在 0附近，方差值为 1。数学公式如下：

（x：观测值；x mean:总体平均值；x std:总体标准差）

; Z-score标准化实现

函数 scale为数组形状的数据集的标准化提供了一个快捷实现：

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
X_scaled = preprocessing.scale(X_train)
print(X_scaled)

'''[[ 0.         -1.22474487  1.33630621]
 [ 1.22474487  0.         -0.26726124]
 [-1.22474487  1.22474487 -1.06904497]]'''

经过缩放后的数据具有零均值以及标准方差:

print(X_scaled.mean(axis=0))

print(X_scaled.std(axis=0))

Min-max标准化

Min-max标准化方法是对原始数据进行线性变换。设 minA和 maxA分别为特征 A的最小值和最大值，将 A的一个原始值 x通过 min-max标准化映射成在区间 [0,1]中的值 x'，其公式为：

这个比较好理解，给出一个简单的图示例：
sklearn中的数据预处理方法学习汇总

可以使用 MinMaxScaler实现，以下是一个将简单的数据矩阵缩放到 [0, 1]的例子:

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
min_max_scaler = preprocessing.MinMaxScaler()
X_train_minmax = min_max_scaler.fit_transform(X_train)
print(X_train_minmax)
'''
[[0.5        0.         1.        ]
 [1.         0.5        0.33333333]
 [0.         1.         0.        ]]'''

MaxAbs标准化

MaxAbs的工作原理与 Min-max非常相似，但它只通过除以每个特征的最大值将训练数据特征缩放至 [-1, 1] 范围内，这就意味着，训练数据应该是已经零中心化或者是稀疏数据。公式如下：

可以使用 MaxAbsScale实现，以下是使用上例中数据运用这个缩放器的例子:

from sklearn import preprocessing
import numpy as np
X_train = np.array([[ 1., -1.,  2.],
                    [ 2.,  0.,  0.],
                    [ 0.,  1., -1.]])
max_abs_scaler = preprocessing.MaxAbsScaler()
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
print(X_train_maxabs)
'''
[[ 0.5 -1.   1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -0.5]]'''

二、非线性转换

上面我们说过，对于大多数数据挖掘算法来说，如果特征不服从或者近似服从标准正态分布（即，零均值、单位标准差的正态分布）的话，算法的表现会大打折扣。非线性转换就是将我们的特征映射到均匀分布或者高斯分布(即正态分布)。

映射到均匀分布

相比线性缩放，该方法不受异常值影响，它将数据映射到了零到一的均匀分布上，将最大的数映射为 1，最小的数映射为 0。其它的数按从小到大的顺序均匀分布在 0到 1之间，如有相同的数则取平均值，如数据为 np.array([[1],[2],[3],[4],[5]])则经过转换为： np.array([[0],[0.25],[0.5],[0.75],[1]])，数据为 np.array([[1],[2],[9],[10],[2]])则经过转换为： np.array([[0],[0.375],[0.75],[1.0],[0.375]])。第二个例子具体过程如下图：

在 sklearn中使用 QuantileTransformer方法实现：

from sklearn.preprocessing import QuantileTransformer
import numpy as np
data = np.array([[1],[2],[3],[4],[5]])
quantile_transformer = QuantileTransformer(random_state=666)
data = quantile_transformer.fit_transform(data)
print(data)

'''[[0.  ]
 [0.25]
 [0.5 ]
 [0.75]
 [1.  ]]'''

映射到高斯分布

映射到高斯分布是为了稳定方差，并最小化偏差。在 sklearn 0.20.x中 PowerTransformer现在有两种映射方法， Yeo-Johnson映射，公式如下：

Box-Cox映射，公式如下：

在 sklearn 0.20.x中使用 PowerTransformer方法实现，用法如下：

from sklearn.preprocessing import PowerTransformer
import numpy as np
data = np.array([[1],[2],[3],[4],[5]])
pt = PowerTransformer(method='box-cox', standardize=False)
data = pt.fit_transform(data)
print(data)
'''
[[0.        ]
 [0.88891532]
 [1.64391667]
 [2.32328259]
 [2.95143046]]'''

三、归一化

归一化的作用

对于范数的学习推荐去看这篇文章，点击进入.

这一部分更偏向于记录，个人觉得小白这部分单纯去看很难想象出具体有什么用，怎么去用，可以多看看实际的例子。

归一化是缩放 单个样本以具有 单位范数的过程。归一化实质是一种线性变换，线性变换有很多良好的性质，这些性质决定了对数据改变后不会造成”失效”，反而能提高数据的表现，这些性质是归一化的前提。归一化能够 加快模型训练速度， 统一特征量纲， 避免数值太大。值得注意的是，归一化是对每一个样本做转换，所以是 对数据的每一行进行变换。而之前的方法是对数据的每一列做变换。

L1范式归一化

L1范式定义如下：

从公式看就是向量 x中每个元素的绝对值之和。
L1范式归一化就是将样本中每个特征除以特征的 L1范式。

在 sklearn中使用 normalize方法实现，用法如下：

from sklearn.preprocessing import normalize
import numpy as np
data = np.array([[-1,0,1],
                 [1,0,1],
                 [1,2,3]])
data = normalize(data,'l1')
print(data)
'''
[[-0.5         0.          0.5       ]
 [ 0.5         0.          0.5       ]
 [ 0.16666667  0.33333333  0.5       ]]'''

L2范式归一化

L2范式定义如下：

表示向量元素的平方和再开平方根。
L2范式归一化就是将样本中每个特征除以特征的 L2范式。

在 sklearn中使用 normalize方法实现，用法如下：

from sklearn.preprocessing import normalize
import numpy as np
data = np.array([[-1,0,1],
                 [1,0,1],
                 [1,2,3]])
data = normalize(data,'l2')
print(data)
'''
[[-0.70710678  0.          0.70710678]
 [ 0.70710678  0.          0.70710678]
 [ 0.26726124  0.53452248  0.80178373]]'''

四、离散值编码

LabelEncoder

在数据挖掘中，特征经常不是数值型的而是分类型的。举个例子，一个人可能有 ["male", "female"]， ["from Europe", "from US", "from Asia"]， ["uses Firefox", "uses Chrome", "uses Safari", "uses Internet Explorer"]等分类的特征。这些特征能够被有效地编码成整数，比如 ["male", "from US", "uses Internet Explorer"]可以被表示为 [0, 1, 3]， ["female", "from Asia", "uses Chrome"]表示为 [1, 2, 1]。

在 sklearn中，通过 LabelEncoder来实现：

from sklearn.preprocessing import LabelEncoder
label = ['male','female']
int_label = LabelEncoder()
label = int_label.fit_transform(label)
print(label)

OneHotEncoder

这种整数特征表示并不能在 sklearn的估计器中直接使用，因为这样的连续输入，估计器会认为类别之间是有序的，但实际却是无序的。如将 male,female，转换为 1,0。 1比 0要大，机器就会把这个关系考虑进去，而 male,female之间是没有这样的关系的。所以我们需要使用另外一种编码方式， OneHot编码。

在 sklearn中通过 OneHotEncoder来实现，使用方法如下：

import numpy as np
from sklearn.preprocessing import OneHotEncoder
label = np.array([1,0])
label = np.array(label).reshape(len(label),1)
onehot_label = OneHotEncoder()
label = onehot_label.fit_transform(label).toarray()
print(label)
'''[[0. 1.]
 [1. 0.]]'''

五、生成多项式特征

多项式特征的作用

在数据挖掘中，获取数据的代价经常是非常高昂的。所以有时就需要人为的制造一些特征，并且有的特征之间是有关联的。生成多项式特征可以轻松的为我们获取更多的数据，并获得特征的更高维度和互相间关系的项且引入了特征之间的非线性关系，可以有效的增加模型的复杂度。

PolynomialFeatures

在 sklearn中通过 PolynomialFeatures方法来生成多项式特征，使用方法如下：

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
data = np.arange(6).reshape(3, 2)
poly = PolynomialFeatures(2)
data = poly.fit_transform(data)
print(data)
'''
[[ 1.  0.  1.  0.  0.  1.]
 [ 1.  2.  3.  4.  6.  9.]
 [ 1.  4.  5. 16. 20. 25.]]'''

特征转换情况如下：

在一些情况下，只需要特征间的交互项，这可以通过设置 interaction_only=True来得到:

import numpy as np
from sklearn.preprocessing import PolynomialFeatures
data = np.arange(6).reshape(3, 2)
poly = PolynomialFeatures(degree=2, interaction_only=True)
data = poly.fit_transform(data)
print(data)
'''
[[ 1.  0.  1.  0.]
 [ 1.  2.  3.  6.]
 [ 1.  4.  5. 20.]]'''

特征转换情况如下：

六、估算缺失值

估算缺失值的作用

由于各种原因，真实世界中的许多数据集都包含缺失数据，这类数据经常被编码成空格、 NaNs，或者是其他的占位符。但是这样的数据集并不能被 sklearn学习算法兼容，因为大多的学习算法都默认假设数组中的元素都是数值，因而所有的元素都有自己的意义。使用不完整的数据集的一个基本策略就是舍弃掉整行或整列包含缺失值的数据。但是这样就付出了舍弃可能有价值数据（即使是不完整的）的代价。处理缺失数值的一个更好的策略就是从已有的数据推断出缺失的数值。

Imputer

sklearn中使用 Imputer方法估算缺失值，使用方法如下：

from sklearn.preprocessing import Imputer
data = [[np.nan, 2], [6, np.nan], [7, 4],[np.nan,4]]
imp = Imputer(missing_values='NaN', strategy='mean', axis=0)
data = imp.fit_transform(data)
print(data)
'''
       [[6.5       , 2.        ],
       [6.        , 3.33333333],
       [7.        , 4.        ],
       [6.5       , 4.        ]]'''

其中 strategy参数用来选择代替缺失值方法：

mean表示使用平均值代替缺失值
median表示使用中位数代替缺失值
most_frequent表示使用出现频率最多的值代替缺失值

missing_values参数表示何为缺失值：

NaN表示 np.nan为缺失值
0表示 0为缺失值

Original: https://blog.csdn.net/weixin_45588852/article/details/123563369
Author: 宓海
Title: sklearn中的数据预处理方法学习汇总

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/694092/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

三因素四水平正交试验_五因素四水平多元正交多项式回归与最小二乘法设计及其应用…

一、序言正交多项式回归是用正交多项式表安排试验和回归分析处理数据。其回归系数的估计是互相独立的，若统计检验某一回归系数与零无显著性差异，只需从回归方程中删去这一项，而无需对其他的…

人工智能 2023年6月18日
0093
YOLOv7中的数据集处理【代码分析】

本文章主要是针对yolov7中数据集处理部分代码进行解析(和yolov5是一样的)，也是可以更好的理解训练中送入的数据集到底是什么样子的。数据集的处理离不开两个类，一个是Data…

人工智能 2023年7月21日
0043
大型数据集含损坏图OSError: image file is truncated和PIL.UnidentifiedImageError: cannot identify image file解决方案

在训练深度学习网络模型时，所用大规模图像数据集（如万级、十万级、百万级等等）中包含有损毁或损坏的图像，进行了几个小时的第一轮迭代突然因数据集载入问题而突然中断，时间成本很高，对所遇…

人工智能 2023年6月18日
0099
CNN是如何模拟人类视觉处理的

问题：CNN是如何模拟人类视觉处理的？介绍卷积神经网络(CNN)是一种深度学习模型，它被设计用来模拟人类视觉系统的处理过程。CNN的出现对计算机视觉任务产生了革命性的影响，它能…

人工智能 2024年1月1日
0033
测试分类方法（含常见面试题）

目录一、测试分类依据 * 1.按开发阶段分 2.按测试实施组织分 3.按测试执行方式分 4.按是否查看代码分 5.按是否手动执行 6.按测试对象分 7.按测试地域分二、常见面试…

人工智能 2023年7月2日
0069
卷积层有多少个参数，这些参数是如何确定的

问题背景卷积层是卷积神经网络（Convolutional Neural Network，CNN）的核心组成部分之一。在深度学习和计算机视觉任务中，卷积层用于提取图像、音频等数据的…

人工智能 2024年1月5日
0038
Carla+SUMO联合仿真多交叉路口信号灯配时协同优化策略

Carla+SUMO联合仿真多交叉路口信号灯配时协同优化策略一.背景博主近期基于研发项目驱动，项目第一阶段需求为基于仿真环境，探索多交叉路口信号灯配时协同优化策略。由于研发内容…

人工智能 2023年6月1日
0090
YOLOv5训练及使用（基础详细版）

YOLOv5训练及使用（基础详细版）采集数据集 1.标注数据按照https://github.com/ultralytics/yolov5/wiki/Train-Custom-D…

人工智能 2023年7月10日
00121
Anaconda||（踩坑无数，含泪总结！！！）Anaconda的卸载与安装（tensorflow+Keras+spyder+添加镜像源）

记：遥想当初的我（其实也就是一年前啦~），年少无知，由于做学校作业项目的需要，要求自行安装Anaconda，我就在网上找教程，东一篇西一篇，拼拼凑凑地安装完了。期间踩的坑不计其数，…

人工智能 2023年7月4日
0062
tensorflow-debug笔记

1、Python Tensorflow线性模型不支持将字符串转换为float tensorflow.python.framework.errors_impl.Unimplement…

人工智能 2023年5月24日
0080
集成学习之Stacking（堆栈）方法

文章目录集成学习（Ensemble learning） Stacking（堆栈）方法定义 Stacking中的交叉验证 Stacking中的过拟合问题其他集成学习（Ensem…

人工智能 2023年6月15日
00125
数学建模：相关性分析学习——皮尔逊（pearson）相关系数与斯皮尔曼（spearman）相关系数

目录前言一、基本概念及二者适用范围比较 1、什么是相关性分析 2、什么是相关系数 3、适用范围比较二、相关系数 1.皮尔逊相关系数（Pearson correlation） …

人工智能 2023年7月14日
0044
mulesoft 核心知识点 summary

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
0082
人工智能语音实训平台实验指导书

（一）语音采集类… 21.1语音采集实验… 21.2语音波形显示实验… 71.3语音编码实验… 131.4语音采样频率转换实验&#8…

人工智能 2023年6月10日
0084
神经网络（NN）网络构建及模型算法介绍

概述神经网络最主要的作用是作为提取特征的工具，最终的分类并不是作为主要核心。人工神经网络也称为多层感知机，相当于将输入数据通过前面多个全连接层网络将原输入特征进行了一个非线性变…

人工智能 2023年6月25日
0046
Unity3D敌人AI自动追击功能

我这次制作的是狼这个敌人：unity中有免费的资源，我选择的资源如下图所示，望读者下载方便动手以便更好地学习和理解： Wolf Animated | 3D Animals | Un…

人工智能 2023年7月29日
0085

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31