BatchNorm怎样解决训练和推理时batch size 不同的问题？

2023年5月23日下午5:34 • 人工智能 • 阅读 88

BatchNorm是在batch维度上计算每个相同通道上的均值和方差，通常情况下，训练阶段的batchsize较大，而推理时batchsize基本为1。这样的话，就会导致训练和推理阶段得到不同的标准化，均值和方差时靠每一个mini-batch的统计得到的，因为推理时只有一个样本，在只有1个向量的数据组上进行标准化后，成了一个全0向量，导致模型出现BUG。为了解决这个问题，不改变训练时的BatchNorm计算方式，仅仅改变推理时计算均值和方差方法。

做法就是用训练集来估计总体均值μ \mu μ和总体标准差σ \sigma σ。主要有两种方法： 简单平均法和 移动指数平均

简单平均法
把每个mini-batch的均值和方差都保存下来，然后训练完了求均值的均值，方差的均值即可。

移动指数平均（Exponential Moving Average）
本文仅以μ \mu μ的计算为例：
μ t o t a l = d e c a y ∗ μ t o t a l + ( 1 − d e c a y ) ∗ μ \mu_{total}=decay\mu_{total}+(1-decay)\mu μt o t a l =d e c a y ∗μt o t a l +(1 −d e c a y )∗μ
其中decay是衰减系数。即总均值μ t o t a l \mu_{total}μt o t a l 是前一个mini-batch统计的总均值和本次mini-batch的μ \mu μ加权求和。至于衰减率 decay在区间[0,1]之间，decay越接近1，结果μ t o t a l \mu_{total}μt o t a l 越稳定，越受较远的大范围的样本影响；decay越接近0，结果μ t o t a l \mu_{total}μt o t a l 越波动，越受较近的小范围的样本影响。

事实上，简单平均可能更好，简单平均本质上是平均权重，但是简单平均需要保存所有BN层在所有mini-batch上的均值向量和方差向量，如果训练数据量很大，会有较可观的存储代价。移动指数平均在实际的框架中更常见（例如tensorflow），可能的好处是EMA不需要存储每一个mini-batch的值，永远只保存着三个值：总统计值、本batch的统计值，decay系数。

在训练阶段同步获得了μ t o t a l \mu_{total}μt o t a l 和σ t o t a l \sigma_{total}σt o t a l 后，在推理时即可对样本进行BN操作。

Original: https://blog.csdn.net/weixin_42211626/article/details/122857223
Author: macan_dct
Title: BatchNorm怎样解决训练和推理时batch size 不同的问题？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496877/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用Python实现自动识别图片文字 — OCR

文章目录 * – 什么是OCR？ – 安装Tesseract-OCR和pytesseract – + 验证安装 – 实现自动识别文字…

人工智能 2023年6月23日
0093
pandas中 map,apply的用法和进度条设置

pandas中 map,apply,applymap的用法和进度条设置在pandas中一般有两种数据结构对象Series、DataFrame。想要批量精心化操作Series、Da…

人工智能 2023年7月8日
0072
OpenPCDet docker镜像分享

文章目录 1. 文件说明 2. 使用 * 2.1 解压代码文件 2.2 加载镜像文件 2.3 运行容器 – 2.3.1 docker在本机运行，在本机显示图形界面 2….

人工智能 2023年7月12日
0092
如何在Tensor对象上执行批量（batch）操作

问题背景在深度学习任务中，常常需要对大规模数据进行批量操作。在TensorFlow中，我们可以使用Tensor对象进行批量操作，从而提高计算的效率。本文将详细介绍如何在Tenso…

人工智能 2024年1月1日
0083
pandas 格式转换

%% import numpy as np import pandas as pd %% 1.一列转为多列，str.split，已确定拆分结果的列数 df = pd.read_ex…

人工智能 2023年7月7日
0073
NLP–中心性算法(Centrality Algorithms)总结【原理】

文章目录中心性算法 Centrality Algorithms 一、度中心性(Degree centrality) 二、接近中心性(Closeness centrality) 三…

人工智能 2023年6月1日
00146
从聚类的角度重新审视 Mask Transformer

全景分割是一个计算机视觉问题，是许多现实世界AI应用的核心任务。由于其复杂性，以前的工作通常将全景分割分为语义分割（为图像中的每个像素分配语义标签，例如”人&#8221…

人工智能 2023年5月31日
00103
小程序【云开发】模式基本介绍 | 云开发项目初始化

文章目录 * – 云开发核心技术简介 – 云开发项目目录结构 – 云开发控制台的功能 – 云开发的环境和配额 – 云开发…

人工智能 2023年5月31日
0070
回归——逻辑回归

1、作用逻辑回归是研究二分类因变量观与一些影响因素之间关系的一种多变量分析方法。但如果因变量是多个类别的，则要用到多分类逻辑回归去研究因变量与一些影响因素之间的关系。 2、输入输…

人工智能 2023年6月18日
00131
【unity opencv 调整摄像头参数】

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档参考：https://blog.csdn.net/hkmaike/article/details/103193980…

人工智能 2023年7月19日
0058
OPMC多视图聚类算法

原文：One-pass Multi-view Clustering for Large-scale Data 创新点：传统的N M F NMF N M F聚类分两步走：求得H H…

人工智能 2023年5月31日
0095
数字图像处理与MATLAB 第四章学习笔记

第四章图像复原与重建图像复原技术主要目的是以预先确定的目标来改善图像，大部分属于客观处理，面向退化模型，并采用相反的过程进行处理，以便恢复出原图像。图像增强技术基本上是一种探…

人工智能 2023年6月21日
0083
机器学习3—分类算法之支持向量机（Support Vector Machine，SVM）算法

SVM算法一、算法思想 * – 1.1svm.SVC()方法的使用 1.2SVC方法主要步骤 1.3SVC简单使用例题二、用SVM分析红酒数据三、SVM分析红酒数…

人工智能 2023年7月1日
0084
矩池云上安装caffe gpu教程

选用CUDA10.0镜像添加nvidia-cuda和修改apt源 curl -fsSL https://mirrors.aliyun.com/nvidia-cuda/ubuntu…

人工智能 2023年6月4日
0084
differentiation）是如何实现的

问题：关于分化（differentiation）是如何实现的？详细介绍分化是微积分中的一个基本概念，用于计算函数的斜率或变化率。在计算机科学中，我们可以使用数值方法来近似计算函…

人工智能 2023年12月31日
0037
自动驾驶路径规划——基于MATLAB的栅格地图

目录前言 1.什么是栅格地图？ 1.1栅格地图用于路径规划的优势： 2.MATLAB栅格地图的绘制 MATLAB代码声明前言这个学期学校开设了相应的课程，同时也在学习古月居…

人工智能 2023年6月10日
00107

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

BatchNorm怎样解决训练和推理时batch size 不同的问题？

大家都在看