对sklearn中transform()和fit_transform()的深入理解

2023年6月23日上午9:39 • 人工智能 • 阅读 87

在用机器学习解决问题时，往往要先对数据进行预处理。其中，z-score归一化和Min-Max归一化是最常用的两种预处理方式，可以通过sklearn.preprocessing模块导入StandardScaler()和 MinMaxScaler()接口实现，而在调用这两个接口时，有三种方法：fit(), fit_transform() , transform()。

但是，查阅了许多博客以及官方文档，都没有把这几个函数的区别讲清楚。

因此，今天花了半天时间，把这个问题探索清楚。

时间紧张的朋友可以直接跳到第四节去看结论，第一节到第三节是作者结合某个数据集进行验证的过程。

还是先提一下这两个归一化方法。

z-score归一化: x = (x – x的均值）/ x的方差

Min-Max归一化: x = (x – x的最小值) / (x的最大值 – x的最小值)

官方文档：

对sklearn中transform()和fit_transform()的深入理解

只有两行文字解释，说了等于没说，。。。= =

So, 下面通过实验来验证。为了让文章更简洁，这里只挑选了项目中的部分代码。

一、处理数据

1、通过 fit_transform() 对训练集进行归一化，这里采用Min-Max归一化

minmaxscaler = MinMaxScaler()
data_train_norm = minmaxscaler.fit_transform(data_train)
data_train_norm = pd.DataFrame(data_train_norm, columns=new_column_name)
data_train_norm.head(3)

2、分别通过调用 fit_transform() 和 transform()处理测试集

data_test_norm_transform = minmaxscaler.transform(data_test)
data_test_norm_transform = pd.DataFrame(data_test_norm_transform, columns=new_column_name)
data_test_norm_fit_transform = minmaxscaler.fit_transform(data_test)
data_test_norm_fit_transform = pd.DataFrame(data_test_norm_fit_transform, columns=new_column_name)

2.1 fit_transform()的结果：

2.2 transform()的结果：

大家肯定已经发现了，这两个方法产生的结果是不一样的，让我们用密度图画出这三个结果的分布。这边只展示前六列数据的分布图。

红线：测试集上fit_transform()后的结果
绿线：测试集上transform()后的结果

可以发现，绿线波峰的位置和黑线是相同的，而红线波峰的位置却不一定和黑线相同。

二、猜测

猜想一：transform() : 在对测试集上的数据进行归一化时，使用的是训练集的最小值和最大值

猜想二：fit_transform()：用自己的最小值和最大值进行归一化

三、验证猜想

3.1 验证猜想二

不用sklearn的方法，手动编程。在归一化测试集时，使用测试集自己的最小值和最大值

((data_test - data_test.min()) / (data_test.max()-data_test.min())).head(3)

对比2.1节的结果，可以看到两者是相同的。

所以猜想二正确。

3.2 验证猜想一

在归一化测试集时，使用训练集的最小值和最大值

((data_test - data_train.min()) / (data_train.max()-data_train.min())).head(3)

对比2.2节的结果，发现手动编程的结果与用sklearn中transform()的结果是相同的。

所以猜想一正确。

四、总结

在用机器学习解决问题时，会将数据集划分成训练集和测试集。我们可以先用fit_transform()方法处理训练集，再用transform()方法处理测试集。这时，在归一化测试集时，使用的是训练集的统计量，这么做是为了让训练集和测试集更相似。使算法在两者上的表现尽可能相同

而若对测试集使用了fit_transform()方法，则会用测试集自己的统计量来归一化数据。

在测试集上千万不要混用这两个方法，笔者就因为在测试集上使用了fit_transform()方法，导致测试集上的损失一直比验证集上的大很多！

还有一个fit()方法没说，这个是最简单的，它和fit_transform()是相同的，只不过后者会返回转换后的结果，而前者是不会返回的，只会训练转换器。

Original: https://blog.csdn.net/tortorish/article/details/123905590
Author: tortorish
Title: 对sklearn中transform()和fit_transform()的深入理解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/647029/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

什么是物联网？物联网应用可以带来哪些好处

有人物联网线上技术交流会是什么 ——当你还在传统制造思维中禁锢，你的同行已经做了物联网赋能什么是物联网? 众所周知，物联网是实现物与物相连。总是感觉远在天边，实际上近在眼前。比…

人工智能 2023年6月6日
00107
生存分析——KM生存曲线、hazard比例、PH假定检验、非比例风险模型（分层/时变/参数模型）（二）

文章目录 1 数据类型 * 1.1 删失数据 – 1.1.1 右删失 1.1.2 左删失 1.1.3 区间删失 1.2 完全数据（Complete data） 2 生存…

人工智能 2023年6月17日
00129
GPT系列模型详解

NLP系列模型解析：Transformer：https://blog.csdn.net/lppfwl/article/details/121084602GPT系列：https://…

人工智能 2023年5月28日
0092
机器学习中的数学——距离定义（二十六）：Wasserstein距离（Wasserstei Distance）/EM距离（Earth-Mover Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月13日
0094
MachineLearning 4. 癌症诊断方法之 K-邻近算法（KNN）

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 92篇原创内容公众号…

人工智能 2023年7月17日
0069
OpenCV DNN调用训练好的caffe 模型(目标检测)

Original: https://blog.csdn.net/Msyusheng/article/details/122736066Author: splendid.rain生T…

人工智能 2023年7月10日
0056
seed在模型中的应用及用法

SEEDseed在深度学习代码中叫随机种子，设置seed的目的是由于深度学习网络模型中初始的权值参数通常都是初始化成随机数。而使用梯度下降法最终得到的局部最优解对于初始位置点的选择…

人工智能 2023年7月12日
00105
手部21个关键点检测+手势识别-[MediaPipe]

MediaPipe 是一款由 Google Research 开发并开源的多媒体机器学习模型应用框架，可以直接调用其API完成目标检测、人脸检测以及关键点检测等。本篇文章介绍其手部…

人工智能 2023年7月4日
0076
paddle OCR 文本识别总结

paddle OCR 文本识别总结 1、OCR学习汇总 * 1、文本检测 – 1、DB（Differentiable Binarization） 2、EAST（Effi…

人工智能 2023年6月25日
00251
Knowledge-based Systems期刊投稿经历

Knowledge-based Systems（KBS）目前是中科院升级版计算机科学-人工智能一区 Top期刊这篇论文2021.10.10投稿，2022.1.7接收，历时约三…

人工智能 2023年5月27日
0094
AI：Python与人工智能相关的库/框架(机器学习&深度学习&数据科学/计算机视觉/自然语言处理)的简介、案例应用之详细攻略

AI之DS/CV/NLP：Python与人工智能相关的库/框架(数据可视化常用库、机器学习常用库、数据科学常用库、深度学习常用库、计算机视觉常用库、自然语言处理常用库)的简介、案例…

人工智能 2023年6月25日
0068
[附源码]Node.js计算机毕业设计高校社团管理系统Express

项目运行环境配置： Node.js 最新版+ V s code + Mysql5.7 + HBuilderX+Navicat11+Vue。项目技术： Express 框架+ N…

人工智能 2023年7月29日
0058
dataframe 空值替换为0_dataframe取元素方法总结

dataframe是pandas包的重要对象，熟练掌握dataframe的基本操作是很有必要的。下面就总结一下dataframe取行列元素的基本操作。一. DataFrame的…

人工智能 2023年7月7日
0077
初入深度学习2——如何使用一个深度学习库

初入深度学习2——如何使用一个深度学习库学习前言使用一个深度学习仓库 * 一、环境配置 – 1、仓库包含requirements.txt 2、仓库不包含requir…

人工智能 2023年6月23日
0082
Toward Fast, Flexible, and Robust Low-Light Image Enhancement(实现快速、灵活和稳健的弱光图像增强)CVPR2022

最前面是论文翻译，中间是背景+问题+方法步骤+实验过程，最后是文中的部分专业名词介绍（水平线分开，能力有限，部分翻译可能不太准确）图1.最近最先进的方法与我们的方法之间的比较。K…

人工智能 2023年6月24日
0074
2022语言与智能技术竞赛启动全球热门的中文NLP赛事它来了

近年来，产学研各界在自然语言处理（NLP）领域持续深耕，促进着人工智能技术不断向前发展。技术的应用不仅改变着人类的生活方式，也为产业升级提供了更多可能。 3月30日，聚焦NLP领域…

人工智能 2023年7月14日
0079

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31