数据科学/机器学习项目流程 — 特征工程

2023年7月18日上午8:37 • 人工智能 • 阅读 122

在数据科学项目中，数据遵循”garbage in, garbage out”，用不好或不对的数据做分析，会产生不好或无用的结论。数据和特征决定了模型精度的上限，算法只是不断趋于这个上限。项目中70%的时间花在特征工程上。

1 特征工程定义

特征工程（Feature Engineering）是将原始数据转化成能更好表达问题本质的特征的过程，使得运用特征后的模型提升预测精度。

特征工程的目的是对原始数据进行选择、分解或聚合，发现对因变量Y有重要作用的自变量X，以更好的表达问题本质。

特征工程的重要性为：特征越好，灵活性越强，构造的模型越简单，模型精度表现越出色。好的特征使一般算法也能获得很好的精度评估，允许选择简单的模型，不需要花太多时间寻找最优参数，降低模型复杂度，并能提升模型精度评估。

2 特征工程流程步骤

数据科学项目常见流程如下：

其中蓝色框为特征工程步骤。

2.1 数据获取

确定 特征使用方案：

1）基于业务理解和业务目标，尽可能找出对因变量有影响的所有自变量。

2）数据可用性评估

获取难度

覆盖率

准确率

确定 特征获取方案：

1）获取途径

如何获取特征（接口调用/github下载等）

如何存储（数据库/csv/txt/dataframe等）

2.2 特征理解

获取数据后对数据特征进行分析描述、统计、理解和改进：

1）数据是结构数据还是非结构数据

2）数据字段的类型：数值型，分类型，顺序型

3）探索式数据分析

描述性统计：不同值个数，空值个数，空值比例，分布形状，最大值，最小值，平均值，中值，标准差，离群值，skew，集中情况，离中情况，分类数据的类型比例等
数据可视化：图表（饼图，条形图，直方图，散点图等）

2.3 特征改进

数据清洗

错误值，重复值，空值，离群值的处理

1）缺失值处理：

数据量很大而缺失数据很少时，可直接删除缺失值删除行（实例）

缺失数据占整个字段所有数据的比例过大（>50%），删除列（字段）, 或将整个字段转换成指示变量（Indicator Variable）

其他情况，进行缺失值的填充：固定值填充，均值填充，众数填充，用模型自动计算填充（KNN，随机森林，XGBoost），Imputer, 不填充

2）异常值处理

基于统计的异常值检测：Quartile, Range，Mean Deviation，Standard Deviation等，适用于单变量的数值型数据。
基于距离的异常值检测：将数据集中与大多数点之间距离大于某个阈值的点视为异常点，主要使用的距离度量方法有绝对距离(曼哈顿距离)、欧氏距离和马氏距离等方法。
基于密度的异常值检测：考察当前点周围密度，可发现局部异常点。

3）根据需求对重复值去重

数据编码

数据类型转换，数据标准化（Data Standardization），一般化(Data Generalization)，离散化(Data discretization)，归一化(Data Normalization) ，二值化（Binarization）, 编码分类变量，指数变换等

标准化（Standardization）：也称为z-score standardization，将正态分布的连续变量转化为标准正态分布（均值为0，方差为单位长度），也用于非正态分布的连续变量，数据形状不会变化。

无量纲化：Max-Min，将连续变量值压缩至 [0,1] 区间。

归一化（Normalization）：将样本特征向量转化为单位向量（unit norm），norm一般为L2 norm。

一般化（Generalization）: 将复杂分类/连续变量简化，如将复杂的地址简化成东南西北。

离散化（Discretization）：将连续变量离散为分类变量，有等宽装箱法（Equal-Width），等深（等频）装箱法（Equal-Size)，特征值装箱法，决策树离散化。

二值化（Binarizer）：基于给定阈值，将连续变量按阈值划分为二值变量。

分类变量编码： one-hot哑变量, 顺序哑变量。

指数变换： log变换后为正态分布，指数变换后为正态分布，Box-Cox变换。

2.4 特征选择

基于统计的特征选择

1) 皮尔逊相关系数（Pearson correlation）：测量列之间的线性关系。在[-1, 1 ] 变化，0代表没有线性关系，相关性接近-1或1代表线性关系很强。要求列是正态分布，数据很大时可忽略此要求。

2) 假设检验：将”变量之间不存在相关性”作为

，可选择ANOVA或卡方检验（Chi-Square）。

基于模型的特征选择

1）决策树/随机森林：对基尼系数或熵进行拟合以找到最优特征，适用于分类特征

2）线性模型和正则化： L1范数的正则化称为Lasso正则化，L2范数的正则化称为岭正则化(Ridge)，正则化有助于解决多重共线性问题，适用于定量特征

3）SVC：二元分类特征

2.5 特征转换

特征选择仅限于从原始列中选择特征，特征转换算法将原始列组合起来，从而构造可以更好描述数据的特征。特征转换使用原始数据集的隐藏结构构造新列，生成一个与原始数据结构不同的数据集。特征转换的原理是生成能捕获数据本质的列，只需要几个就能准确解释数据集。是一种降维手段，将高维数据映射到低维空间。两种主要的特征线性转换方法是PCA和LDA。非线性转换方法有T-SNE等。

主成分分析(PCA)

主成分分析（PCA, Principal Components Analysis ）是将有多个相关特征的数据集投影到相关特征较少的坐标系上。这些新的、不相关的特征叫主成分。主成分能替代原始特征空间的坐标系，需要的特征少，捕捉的变化多。主成分会产生新特征，最大化数据的方差。这样每个特征都会解释数据的形状。主成分按可以解释的方差来排序，第一个主成分最能解释数据的方差，第二个其次。

PCA本身是无监督任务，不使用响应列进行投影/转换。

PCA利用了协方差矩阵的特征值分解。PCA也可以在相关矩阵上使用。如果特征的量纲相同，可以使用相关矩阵。量纲不同时，应使用协方差矩阵。一般在缩放数据上使用协方差矩阵。

PCA的过程为：

1）创建数据集的协方差矩阵；

2）计算协方差矩阵的特征值；

3）保留前k个特征值（按特征值降序排列），绘制碎石图确定保留的特征值个数；

4）用保留的特征向量转换为新的数据点。

PCA会消除相关特征。本质上，在特征值分解后，得到的所有主成分都互相垂直，意思是彼此线性无关。很多机器学习和预处理技术会假设特征是相互独立的，用PCA可以确保这个假设。

线性判别分析（LDA ）

线性判别分析（LDA, Linear Discriminant Analysis）是特征变换算法，也是有监督分类器。和PCA一样，LDA的目标是提取新坐标系，将原始数据投影到低维空间中。但LDA不会专注于数据的方差，而是优化低维空间，此低维空间在为分类模型查找决策边界时更有用。L DA分类有助于避免过拟合，也会降低计算成本。

LDA会计算类内（within-class）和类间（between-class）散布矩阵的特征值和特征向量，选择分类性能最好的特征，最大化类间距离，最小化类内距离。LDA的步骤为：

1）计算Y变量每个分类的均值向量；

2）计算类内和类间的散布矩阵；

3）计算

的特征值和特征向量；

4）降序排列特征值，保留前k个特征向量；

5）使用前几个特征向量将数据投影到新空间；

非线性变换

PCA和LDA都是线性变换（矩阵变换），不适用于非线性特征。对于非线性变换，可用Kernal PCA，Kernal LDA , t-SNE, LLE等

参考引用：

【1】https://blog.csdn.net/sunyaowu315/article/details/83782069

【2】https://scikit-learn.org/stable/modules/preprocessing.html#preprocessing

【3】Feature Engineering Made Easy — Sinan Ozdemir， Divya Susarla

【4】Feature Engineering For Machine Learning — Alice Zheng & Amanda Casari

【5】https://blog.csdn.net/u010865478/article/details/82716992

Original: https://blog.csdn.net/liskolnikov/article/details/121465992
Author: liskol
Title: 数据科学/机器学习项目流程 — 特征工程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700445/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【总结】Python数据处理-操作Excel

Python操作Excel 1.读取文件 * 1.1 pandas直接读取 – 1.1.1 读取excel 1.1.2 读取csv 1.1.3 读取文件夹 1.2 模块…

人工智能 2023年7月8日
0054
机器学习应用篇（十）——工业蒸汽数据分析

机器学习应用篇（十）——工业蒸汽数据分析文章目录机器学习应用篇（十）——工业蒸汽数据分析 * 一、数据集二、数据分析 – 1 数据导入２数据特征探索（数据可视…

人工智能 2023年6月11日
0075
CVPR2022 多目标跟踪（MOT）汇总

一、《DanceTrack: Multi-Object Tracking in Uniform Appearance and Diverse Motion》作者: Peize S…

人工智能 2023年7月26日
00122
DAY2 OpenCv学习笔记： C++ 透视变换

透视变换：图像几何变换，将原图像按坐标投射到新的平面上，从四组对应点计算新的坐标，进行线性变换。在OPENCV中，可能过Mat getPerspectiveTransform( …

人工智能 2023年7月20日
0053
计算机视觉——单目相机标定

什么是相机标定：在计算机视…

人工智能 2023年5月26日
00100
文本分类算法研究与实现

1 设计题目文本分类的算法研究与实现 2 课题背景及研究现状 2.1 课题背景近年来，随着Internet的迅猛发展，网络信息和数据信息不断扩展，如何有效利用这一丰富的数据信息…

人工智能 2023年7月1日
0067
安装TensorFlow

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月4日
0081
论文笔记 ACL 2022|Query and Extract: Refining Event Extraction as Type-oriented Binary Decoding

文章目录 * – 1 简介 – + 1.1 创新 – 2 方法 – + 2.1 触发词检测 + 2.2 论元抽取 – 3…

人工智能 2023年5月27日
0068
语音识别入门第五节：基于GMM-HMM的语音识别系统

目录基于孤立词的GMM-HMM语音识别系统 * 训练解码基于单音素的GMM-HMM语音识别系统 * 音素/词典训练解码基于三音素的GMM-HMM语音识别系统 * 三音素…

人工智能 2023年5月25日
0099
从0开始训练bert

之前一直对bert 预训练结果是怎么来的感兴趣，今天参考了下github 上的代码，跑了一边终于知道是怎么来的了，在这分享下。代码地址： codertimo/BERT-pytor…

人工智能 2023年5月27日
0080
【Pytorch】torch.nn.Dropout()的两种用法：防止过拟合 & 数据增强

Dropout方法是一种在训练模型时被广泛应用的trick，目的是防止模型过拟合，原理是使网络中某一层的每个参数以一定概率被mask（变为0），只用剩下的参数进行训练，从而达到防止…

人工智能 2023年6月16日
0077
【论文精读】TMI2021医学图像分割 SMU-Net

TMI2021医学图像分割论文 SMU-Net: Saliency-guided Morphology-aware U-Net for Breast Lesion Segmenta…

人工智能 2023年6月15日
0063
error: Ignore above cudart dlerror if you do not have a GPU set up on your machine.

具体错误描述： W tensorflow/stream_executor/platform/default/dso_loader.cc:64] Could not load dyn…

人工智能 2023年6月16日
00198
Github每日精选（第13期）：实时目标检测网络YOLOv7

YOLOv7真的是非常强大和硬核，在 5 FPS 到 160 FPS 范围内的速度和准确度都超过了所有已知的目标检测器，这是目前来说，最好的额目标检测技术了。 github的地址…

人工智能 2023年7月9日
0078
Python自动打码，DdddOcr通用验证码自动识别库

在Python爬虫中，或者使用POST提交的过程中，往往需要提交验证码来验证，除了人工打码，付费的api接口（打码接口），深度学习识别验证码，当然还有适合新人使用的OCR验证码识别…

人工智能 2023年6月25日
0057
财务分析不再是难题，Smartbi教你财务数据人都该学习的分析方法

财务报表天天做，可是财务分析并不是所有会计都能做的。在制作财务分析前，我们首先要做的就是站在领导的角度去思考，他们想看到什么样的财务汇报！是一堆密密麻麻的财务数据吗？他们需…

人工智能 2023年7月17日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

数据科学/机器学习项目流程 — 特征工程

2.1 数据获取

2.2 特征理解

2.3 特征改进

数据清洗

数据编码

2.4 特征选择

基于统计的特征选择

基于模型的特征选择

2.5 特征转换

主成分分析(PCA)

线性判别分析（LDA ）

非线性变换

大家都在看