Normalization）是什么？有什么作用

2024年1月1日上午11:57 • 人工智能 • 阅读 35

之前我们已经介绍了前处理中的特征缩放方法，包括标准化和归一化。现在我们将重点介绍归一化方法的一种形式，即Normalization（规范化），它是机器学习中一种常用的数据处理手段。

什么是Normalization（规范化）？

在机器学习中，Normalization（规范化）是指将数据转化为一定范围内的数值，从而消除不同特征之间的量纲差异。通过规范化，可以确保不同特征对模型的影响具有可比性，避免局部最优解的产生，并提高模型训练的稳定性和收敛速度。

归一化的作用

归一化主要有以下几个作用：
1. 消除不同特征之间的量纲差异：不同特征可能具有不同的取值范围和单位，这样会导致在特征选择和模型训练过程中，某些特征的权重过高，从而影响最终的结果。
2. 加速模型训练：规范化可以使得模型训练过程更加快速和稳定，减少收敛时间和梯度下降算法产生的震荡。
3. 提高模型的泛化性能：规范化可以减小特征值之间的差异，使得模型更加关注具体数值，避免过拟合问题。

下面我们将介绍常用的归一化方法中的一种，即最大最小归一化。

最大最小归一化原理

最大最小归一化是指将数据线性映射到[0, 1]的区间内。假设我们有一个数据集$X$，其中的特征集为$x_1, x_2, …, x_n$，归一化后的数据集为$X_{norm}$，我们通过以下公式进行映射：

$$x_{norm} = \frac{x – x_{min}}{x_{max} – x_{min}}$$

其中，$x$是原始数据，$x_{min}$是该特征的最小值，$x_{max}$是该特征的最大值。

最大最小归一化计算步骤

下面是最大最小归一化的计算步骤：
1. 对每个特征计算最小值$x_{min}$和最大值$x_{max}$。
2. 对每个特征使用上述公式进行归一化计算，将原始数据映射到[0, 1]的区间内。

最大最小归一化的Python实现

下面我们将使用Python来实现最大最小归一化，并解释代码细节。

首先，我们需要导入必要的库：

import numpy as np
import matplotlib.pyplot as plt

接下来，我们生成一个虚拟数据集，用于演示归一化的过程：

# 生成虚拟数据集
X = np.random.randint(0, 100, (100, 2))

我们定义一个函数normalize来实现最大最小归一化：

def normalize(X):
 X_norm = (X - np.min(X, axis=0)) / (np.max(X, axis=0) - np.min(X, axis=0))
 return X_norm

然后，我们调用该函数对数据进行归一化操作：

X_norm = normalize(X)

最后，我们可视化归一化前后的数据分布情况：

# 可视化原始数据集
plt.subplot(1, 2, 1)
plt.scatter(X[:, 0], X[:, 1])
plt.title("Original Data")

# 可视化归一化后的数据集
plt.subplot(1, 2, 2)
plt.scatter(X_norm[:, 0], X_norm[:, 1])
plt.title("Normalized Data")

plt.show()

在上述代码中，我们使用scatter函数绘制原始数据集和归一化后的数据集的散点图，并使用title函数为图表添加标题。

最终的可视化结果如下图所示：

代码细节解释

在代码中，我们使用了NumPy库来进行向量化计算，提高计算效率。具体而言，np.min和np.max分别用于计算特征的最小值和最大值。然后，我们使用广播运算，分别将最小值和最大值扩展为与特征矩阵X相同的形状，并进行归一化操作。最后，我们将归一化后的结果存储在X_norm变量中，并进行可视化。

通过以上的演示，我们详细地介绍了最大最小归一化的原理、公式推导、计算步骤以及Python代码示例，并解释了代码细节。最大最小归一化是一种常用且有效的数据处理方法，在机器学习中具有重要的作用。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822617/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Anaconda下安装tensorflow (windows系统)

因为之前Anaconda、python都已经装好了（可以看之前文章Anaconda超详细安装教程（Windows环境下）_fan18317517352的博客-CSDN博客（本人技术…

人工智能 2023年5月25日
0072
用Python将jpg格式文件逐个打标签之后再写入hdf5文件

在用CNN进行图片分类的任务时，发现很多demo都是使用已有的h5文件数据集进行训练但是其他人的数据集毕竟不能100%契合每个项目所以还是想自己准备数据集可照片好拍，打标签和…

人工智能 2023年7月2日
0072
语音识别笔记

1、语音基础 2、模型结构 2.1 卷积神经网络 1 时频域上的卷积相比于二维的图像输入，语音信号往往是一维时序信号，直接使用一维时序信号建模效果差。因此要在网络的输入中也采用经过…

人工智能 2023年5月25日
0063
python列表反转的4种方法

在某些应用中可能需要将列表元素进行逆序排列，也就是所有的元素位置反转。以下总结了python列表常见的4种反转方法：一、列表对象的reverse()方法语法：列表名.revers…

人工智能 2023年7月6日
0073
小鹏汽车2019春招自动驾驶中心研发笔试题（部分题解）

小鹏汽车2019春招自动驾驶中心研发笔试题（部分题解）链接：https://www.nowcoder.com/questionTerminal/ebd81731da404c0f9…

人工智能 2023年6月2日
0070
刘焕勇医学知识图图QASystemOnMedicalKG的构建试错过程

首先先别打开py，运行不了，要先改代码。面面的回答很好用，但是：问题3：配置问题别用他那个，用最新的py2neo和neo4j全用最新的就行。基于医疗知识图谱的问答实践中遇到的问…

人工智能 2023年6月1日
0072
3060显卡下CUDA+CUDNN+Paddle安装的血泪史

3060显卡下CUDA+CUDNN+Paddle安装的血泪史 项目相关&#x80CC…

人工智能 2023年5月26日
0085
睿智的目标检测61——Pytorch搭建YoloV7目标检测平台

睿智的目标检测61——Pytorch搭建YoloV7目标检测平台学习前言源码下载 YoloV7改进的部分（不完全） YoloV7实现思路 * 一、整体结构解析二、网络结构解析…

人工智能 2023年6月26日
0081
神经网络常见评价指标超详细介绍（ROC曲线、AUC指标、AUROC）

目录 * – 一、基本概念 – 二、ROC曲线 – 三、AUROC（AUC指标） – 四、实例介绍 – + 4.1 公式…

人工智能 2023年6月12日
00147
基于超大尺寸图像的语义分割论文和代码汇总

文章目录 2019 * Collaborative Global-Local Networks for Memory-Efficient Segmentation of Ultra…

人工智能 2023年7月28日
0073
图像灰度直方图的均衡化和规定化 matlab

图像灰度直方图的均衡化和规定化 matlab 灰度直方图均衡化 * 均衡化步骤：代码实现：结果对比：规定化： * 定义：作用：做法：主要映射方法：结果对比：灰度直…

人工智能 2023年6月18日
0085
【已证实】训练神经网络时，GPU利用率低而显存占用率高的思考

已经证实了我的猜想”从batch_size角度考虑”的正确性。详细解释在后面更新。 GPU利用率低而显存占用率高的思考问题描述：在深度学习training…

人工智能 2023年6月18日
0074
Alphapose论文代码详解

注：B站有相应视频，点击此链接即可跳转观看https://www.bilibili.com/video/BV1hb4y117mu/ 第2节：Alphapose 2.1Alphapo…

人工智能 2023年6月16日
0064
逻辑回归模型在处理离散型特征时需要注意什么

问题描述逻辑回归是一种常用于处理二分类问题的机器学习算法。然而，在处理离散型特征时，我们需要特别注意一些问题。本文将详细介绍逻辑回归模型在处理离散型特征时需要注意的内容，包括算法…

人工智能 2023年12月31日
0027
【PCL自学：Feature5】视点特征直方图VFH概念及使用 (持续更新)

一、视点特征直方图（VFH）原理这篇博文描述了视点特征直方图(Viewpoint Feature Histogram[VFH])描述符，在一些其他文章也称为视角特征直方图，这是一…

人工智能 2023年5月31日
0069
三分钟解决session not created: This version of ChromeDriver only supports Chrome version问题

三分钟解决session not created: This version of ChromeDriver only supports Chrome version问题 1. 第…

人工智能 2023年7月5日
0075

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31