数据标准化之最大最小归一化（原理+Pyhon代码）

2023年6月20日上午12:26 • 人工智能 • 阅读 74

一、原理介绍

通常情况下，在建模之前，都需要对数据进行标准化处理，以消除量纲的影响。如果对未标准化的数据直接进行建模，可能会导致模型对数值大的变量学习过多，而对数值小的变量训练不够充分，往往模型效果会不好。常用的数据标准化方法有最大最小归一化、均值方差标准化、小数定标法、定量特征二值化等。

最大最小归一化，顾名思义，就是利用数据列中的最大值和最小值进行标准化处理，标准化后的数值处于[0,1]之间，计算方式为数据与该列的最小值作差，再除以极差。
具体公式为：x ′ = x − m i n m a x − m i n x’=\frac{x-min}{max-min}x ′=m a x −m i n x −m i n
公式中，x’表示单个数据的取值，min是数据所在列的最小值，max是数据所在列的最大值。

最大最小归一化容易受极端值的影响，当某列数据中存在极端值时，可以根据实际的业务场景，考虑事先将极端值或异常值剔除，或者是对标准化后的数据进行变换，如取对数等，使得变换后的数据接近于正态分布。

二、代码实现


from sklearn.preprocessing import StandardScaler
import warnings
warnings.filterwarnings("ignore")
from pyforest import *
import pandas as pd
import numpy as np


data=pd.read_csv("F:/data/data.csv",encoding='gbk')

data.head()

(1)资产负债率(2)剔除预收款项后的资产负债率(3)长期资本负债率(4)长期资产适合率(5)权益乘数00.6557990.6067080.6138650.4949600.79197110.7520610.7054980.8416391.0000000.93299020.9573910.9415430.0000000.4934650.98863030.8070460.7807090.9846960.5306370.95808640.8052350.7960710.8614800.5412990.957462

from sklearn.preprocessing import MinMaxScaler

Standard_data=MinMaxScaler().fit_transform(data)


Standard_data

array([[0.65608912, 0.60990114, 0.61386483, 0.49495976, 0.79739631],
[0.75239351, 0.70921165, 0.84163884, 1. , 0.93938095],
[0.95781436, 0.9464991 , 0. , 0.49346475, 0.99540256],
…,
[0.73319974, 0.65164941, 0.51791243, 0.50922178, 0.92607276],
[0.66202637, 0.56413243, 0.75722411, 0.49343682, 0.81677841],
[0.88919966, 0.85747254, 0. , 0.49297322, 0.98517934]])


Standard_data = pd.DataFrame(Standard_data)


Standard_data.to_csv("F:/data/Standard_data.csv",index=False)

Original: https://blog.csdn.net/weixin_45481473/article/details/113797850
Author: data learning
Title: 数据标准化之最大最小归一化（原理+Pyhon代码）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/640386/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python机器学习之分类预测

目录逻辑回归 * 水位判断案例引入逻辑回归计算原理逻辑回归单次项逻辑回归代码示例二阶项及以上项式的边界函数计算和绘制 – 二阶多项式逻辑回归案例 + 尝试用一阶…

人工智能 2023年6月30日
0046
R语言合并数据框的行与列

大家好，这里是想做生信大恐龙🦖的生信小白。先赞后看养成习惯，还没关注的小伙伴点点关注不迷路。今天熟悉数据操作中的数据合并。 rbind()（按列合并应该有相同的行数）和cbind(…

人工智能 2023年6月19日
0084
【2020】自我蒸馏分类改进Regularizing Class-wise Predictions via Self-knowledge Distillation

【2020】Regularizing Class-wise Predictions via Self-knowledge Distillation 问题：具有数百万个参数的深度神…

人工智能 2023年7月1日
0073
TransUnet官方代码测试自己的数据集（已训练完毕）

码字不易，收藏之余，别忘了给我点个赞吧！ ———Start 首先参考上一篇的训练过程，这是测试过程，需要用到训练过程的权重。 1. TransU…

人工智能 2023年6月16日
0065
WT2003H语音芯片（模组）是如何让雾化加湿助眠器方案设计简单化、标准化？

随着空调的广泛使用和秋冬季干燥的气候，皮肤紧绷、舌燥、咳嗽、感冒等空调疾病的滋生，人们更加注重健康、预防和保健。空气加湿器、雾化加湿器等产品深受市场青睐。加湿器雾化产品在雾化过程中…

人工智能 2023年5月23日
0089
90个Pandas案例

文章很长，高低要忍一下，如果忍不了，那就收藏吧，总会用到的为了方便查找，先提供目录，一步定位！如何使用列表和字典创建 Series * 使用列表创建 Series 使用 nam…

人工智能 2023年7月7日
0037
[行人重识别论文阅读]DomainMix: Learning Generalizable Person Re-Identification Without Human Annotations

论文地址项目地址本篇论文解析引自 1.论文摘要 1.提出利用有标签的合成数据集A和无标签的真实数据集B训练出能泛化到未知场景C的模型。 2.为了实现A+B->C，论文提出了…

人工智能 2023年6月2日
0069
STM32运行深度学习指南基础篇(2)(STM32CubeMX.AI+Tensorflow)

STM32运行深度学习指南基础篇(2)(STM32CubeMX.AI+Tensorflow ) 由于实现的是简单的逻辑运算( A ∩ B ) ∪ ( C ∩ D ) (A\cap …

人工智能 2023年5月26日
00134
OpenAPITools 实践

OpenAPITools 可以依据 REST API 描述文件，自动生成服务端桩（Stub）代码、客户端 SDK 代码，及文档等。其是社区版的 Swagger ，差异可见：Open…

人工智能 2023年6月4日
0078
文本分类理论代码实践全过程

目录深度学习Bert文本分类理论部分神经网络中的数据格式文本分类理论基础文本分类实战–代码、结果 Bert中文文本分类的实战 Bert+CNN中文文本分类的实战…

人工智能 2023年5月28日
0066
9.7科学计算与数据分析基础试题

目录 1.创建一个3行3列的nadrray数组，数组元素为1，2，3，，，9这九个数。编写程序，计算输出其所有的元素的和.每行的均值以及每列的均值 2.正则化一个5行5列的随机矩阵…

人工智能 2023年7月17日
0052
使用ROS功能包进行Realsense相机内参标定

系统：Ubuntu18.04 事先准备：安装好realsense2_camera功能包安装ROS标定功能包 sudo apt install ros-melodic-camera…

人工智能 2023年5月26日
0063
Python+OpenCV 计算图像场景的深度图（原理与代码实现）

目录问题描述原理介绍 StereoBM_create() * 作用原型参数返回值 StereoBM.compute() * 作用原型参数输出 StereoSGBM_…

人工智能 2023年6月17日
0085
数据仓库工具superset安装（完全可用）

数据仓库工具superset安装我安装尝试了3.7版本，出错。看经验贴安3.8,3.9版本的，全都没有成功初始化。最终，安装Python3.6版本可以成功 1.首先在主目录下卸载已…

人工智能 2023年7月15日
0036
python dataframe是什么_python – 什么是Spark DataFrame方法`toPandas`实际上在做什么？…

使用火花读取CSV文件到大pandas是一个很迂回的方法来实现将CSV文件读入内存的最终目标。看起来你可能会误会这里玩的技术的用例。 Spark用于分布式计算(尽管可以在本地使用…

人工智能 2023年7月9日
0079
在Recognition算法中，常见的特征提取方法有哪些

特征提取方法在Recognition算法中的作用在Recognition算法中，特征提取方法起着十分重要的作用。它们能够将原始数据转化为特征向量，这样就可以用来表示不同的目标或者…

人工智能 2024年1月3日
0054

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

数据标准化之最大最小归一化（原理+Pyhon代码）

一、原理介绍

二、代码实现

大家都在看