Normalization）是如何实现的

2023年12月31日下午3:52 • 人工智能 • 阅读 38

详细解决Normalization问题

介绍

Normalization（归一化）是数据预处理的一个常用步骤，用于将数据转换为特定范围内的值。它在机器学习和数据挖掘等领域中被广泛应用，旨在确保不同特征之间的数据具有相似的尺度，提高模型的性能和结果的可解释性。

算法原理

归一化方法有多种，其中最常见的是将数据缩放到0到1之间。此方法称为Min-Max归一化。归一化算法原理如下：
1. 计算数据的最小值(min)和最大值(max)。
2. 使用公式 $x_{normalized} = \frac{x – x_{min}}{x_{max} – x_{min}}$ 将数据缩放到0到1之间。

公式推导

设原始数据中的某个特征为x，归一化后的特征为x_normalized，原始数据的最小值为x_min，最大值为x_max。那么归一化公式推导如下：
$$x_{normalized} = \frac{x – x_{min}}{x_{max} – x_{min}}$$

计算步骤

确定需要归一化的特征列。
计算特征列的最小值和最大值。
使用归一化公式处理每个特征值。

复杂Python代码示例

import pandas as pd
import matplotlib.pyplot as plt

# 创建示例数据集
data = pd.DataFrame({'A': [1, 2, 3, 4, 5], 'B': [10, 20, 30, 40, 50], 'C': [100, 200, 300, 400, 500]})

# 定义归一化函数
def normalize(data):
 for column in data.columns:
 # 计算特征列的最小值和最大值
 min_value = data[column].min()
 max_value = data[column].max()
 # 归一化处理
 data[column] = (data[column] - min_value) / (max_value - min_value)
 return data

# 归一化数据集
normalized_data = normalize(data)

# 绘制原始数据集和归一化后的数据集的图示
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(10, 5))

# 绘制原始数据集的图示
ax1.scatter(data['A'], data['B'], color='red', label='Original Data')
ax1.set_xlabel('A')
ax1.set_ylabel('B')
ax1.legend()

# 绘制归一化后的数据集的图示
ax2.scatter(normalized_data['A'], normalized_data['B'], color='blue', label='Normalized Data')
ax2.set_xlabel('Normalized A')
ax2.set_ylabel('Normalized B')
ax2.legend()

plt.show()

代码细节解释

首先，导入需要的库，包括 pandas 和 matplotlib。
创建一个示例数据集，数据包含三列（A、B、C）。
定义一个名为 normalize 的函数，用于归一化数据。
在 normalize 函数中，使用循环遍历数据集的每一列。
在循环中，首先计算每列的最小值和最大值。
使用归一化公式将数据缩放到0到1之间。
返回归一化后的数据集。
调用 normalize 函数，对原始数据集进行归一化处理，得到归一化后的数据集 normalized_data。
创建一个包含两个子图的图示。
在第一个子图中，使用原始数据集的列A作为x轴，列B作为y轴，绘制散点图。
给第一个子图添加标题和轴标签。
在第二个子图中，使用归一化后的数据集的列A作为x轴，列B作为y轴，绘制散点图。
给第二个子图添加标题和轴标签。
显示图示。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/822050/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

博客反抄袭工作的一些思考和尝试

近日开始着手反抄袭工作，做了一些思考和尝试。现状与动机目前看，比较明显，容易判定的抄袭行为，主要包括: 直接完整复制，虽然容易被识破，但是因为成本低，甚至有些抄袭者使用爬虫进…

人工智能 2023年5月30日
0078
Graph Neural Network-Based Anomaly Detection in Multivariate Time Series 综述

原文链接：https://arxiv.org/abs/2106.06947代码链接：GitHub – d-ailin/GDN: Implementation code …

人工智能 2023年7月14日
00136
CUDA升级和版本切换方法

1.查看CUDA版本 echo $PATH 输出:/usr/local/cuda-11.1/bin:/usr/local/cuda-10.1/bin:… 哪个在前面哪个…

人工智能 2023年7月4日
0092
COCO数据集的介绍和使用

这篇文章是我研究生阶段入学期间学习所记，主要供自己使用，结合了论文原作和源码，中间借鉴的一些b站的视频以及他人博客的解释，会在文章末尾贴出链接。目录 COCO数据集的介绍 COC…

人工智能 2023年6月24日
0086
微生物多样性数据分析（16S）

微生物多样性数据分析（16S） OTU(operational taxonomic units) 是在系统发生学研究或群体遗传学研究中，为了便于进行分析，人为给某一个分类单元（品系…

人工智能 2023年7月15日
00127
deeplab-v3+原理详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、deeplab-v3+提出原因与简单介绍二、deeplab-v…

人工智能 2023年6月15日
00123
（5）OpenPose – Pytorch版用于人体姿态检测、关键点提取、摔倒检测

1.下载OpenPose – Pytorch版源码 github下载地址：https://github.com/Hzzone/pytorch-openpose权重下载：…

人工智能 2023年6月16日
00243
基于pytorch的 wandb使用

一、什么是wandb wandb是一个云数据记录追踪工具https://wandb.ai 二、使用步骤 1、登录网站，创建自己的账户（可使用GitHub账号登陆）2、创建一个项目…

人工智能 2023年7月23日
0093
数字图像处理——实验二数字图像增强实验

数字图像处理——实验二数字图像增强实验一、实验目的二、实验主要仪器设备三、实验原理四、实验内容及代码 * 4.1 实验内容 4.2 实验数据 4.3 实验代码 &#821…

人工智能 2023年6月18日
0070
深度学习之自编码器（5）VAE图片生成实战

深度学习之自编码器（5）VAE图片生成实战 1. VAE模型 2. Reparameterization技巧 3. 网络训练 4. 图片生成 VAE图片生成实战完整代码本节我们基…

人工智能 2023年7月14日
0045
SQL 插入数据

插入数据 * – 插入整行字段 – 插入部分字段 – 一次插入多行 – 借助其他结果集插入 – 克隆表 – …

人工智能 2023年6月30日
0056
YOLOPose实战：手把手实现端到端的人体姿态估计+原理图与代码结构

开源地址: https://github.com/TexasInstruments/edgeai-yolov5/tree/yolo-pose 导读：前不久看到一则新闻，YOLO之父…

人工智能 2023年7月4日
00111
LSS-lift splat shoot论文与代码解读

目录序言 * 论文代码总结序言最近开始学习多摄融合领域了，定义是输入为多个摄像机图像，获得多个视角的相机图像特征，通过相机内外参数进行特征映射到BEV视角，得到360°的…

人工智能 2023年7月27日
0051
知识图谱需要解决的问题

1 知识图谱应用场景 1、数据可视化2、基于图谱的问答系统3、基于图谱的关系推理4、便捷的关系查询，给模型提供更多数据特征 2 知识图谱的构建非结构化数据源中的实体识别：一般来说…

人工智能 2023年6月1日
0087
深度学习框架如何处理大规模数据集和高维度的特征

Introduction 在深度学习中处理大规模数据集和高维度特征是一个重要的问题。许多深度学习框架具有专门的工具和算法来处理这些情况。在本文中，我们将以一个口语化的方式详细解决这…

人工智能 2024年1月1日
0042
Bert+LSTM+CRF命名实体识别pytorch代码详解

Bert+LSTM+CRF命名实体识别从0开始解析源代码。理解原代码的逻辑，具体了解为什么使用预训练的bert，bert有什么作用，网络的搭建是怎么样的，训练过程是怎么训练的，…

人工智能 2023年6月23日
0069

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31