01.浅谈深度学习中Batch_size的大小对模型训练的影响

2023年6月16日下午4:10 • 人工智能 • 阅读 98

提高内存利用率以及大矩阵乘法的并行化效率；
跑完一次epoch（全数据集）所需要的 迭代次数减少，对相同的数据量，处理速度比小的Batch_size要更快；
在一定范围内，一般来说Batch_size越大，其确定的下降方向越准，引起的训练震荡越小
提高了内存利用率，但 内存容量可能撑不住；
跑完一次epoch所需的迭代次数变小，但想要达到相同的精度，其所花费的时间大大增加，从而对参数的修正也显得更加缓慢。
Batch_size增大到一定程度，其确定的下降方向已经基本不再变化（会影响随机性的引入）

在 数据集比较小时使用， 好处是：

由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向；
由于不同权重的梯度值差别巨大，因此选择一个全局的学习率很困难。Full Batch Learning可以使用Rprop只基于梯度符号并且针对性单独更新各权值。

在更 大的数据集上使用的话，好处会变成坏处：

随着数据集的海量增长和内存限制，一次性载入所有的数据进来变得越来越不可行；
以Rprop的方式迭代，会由于各个Batch之间的采样差异性，各次梯度修正值相互抵消，无法修正。

Batch_size=1，也就是每次只训练一个样本。这就是在线学习(Online Learning)。理论上说batch_size=1是最好的，不过实际上调的时候，会出现batch_size太小导致网络收敛不稳定，最后结果比较差。

这是因为线性神经元在均方误差代价函数的错误面是一个抛物面，横截面是椭圆。对于多层神经元，非线性网络，在局部依然近似是抛物面。使用在线学习，每次修正方向以各自样本的梯度方向修正，难以达到收敛。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-hqWDRbk8-1652342555685)(…/%E5%9B%BE%E7%89%87/f5a6d3b5c4b5a91851f0f8b8735f162d_720w.jpg)]

一般而言，根据GPU显存，设置为最大，而且一般要求是８的倍数（比如16，32，64），GPU内部的并行计算效率最高。
或者选择一部分数据，设置几个８的倍数的Batch_Size，看看loss的下降情况，再选用效果更好的值。

batch_size设的大一些，收敛得快，也就是需要训练的次数少，准确率上升的也很稳定，但是实际使用起来精度不高；
batch_size设的小一些，收敛得慢，可能准确率来回震荡，因此需要把基础学习速率降低一些，但是实际使用起来精度较高。

Original: https://blog.csdn.net/poowicat/article/details/124733413
Author: poowicat
Title: 01.浅谈深度学习中Batch_size的大小对模型训练的影响

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/625286/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

知识图谱框架DeepKE简单使用+关系抽取+小小bug修复

一、关系抽取知识图谱里面主要涉及两个很重要的领域：实体识别、关系抽取。当然，一般来说实体识别是关系抽取的前提条件，实体识别是序列标注的一种，通过将语句中的各种词的词性进行标注作为…

人工智能 2023年6月1日
0065
Remote Sensing Image Change Detection with Transformers复现遇到的问题

1、解决ImportError: /usr/lib/x86_64-linux-gnu/libstdc++.so.6: version `GLIBCXX_3.4.22′ …

人工智能 2023年7月9日
0064
企业Spark案例–酒店数据分析实战提交

package com.yy import org.apache.spark.rdd.RDD import org.apache.spark.sql.{DataFrame, Dat…

人工智能 2023年6月11日
00101
推荐系统笔记：决策树&回归树

决策树和回归树经常用于数据分类。决策树是为那些因变量（target，label）是分类的情况而设计的，而回归树是为那些因变量（target，label）是数值的情况而设计的。在…

人工智能 2023年6月18日
0074
利用python实现简单的人工神经网络识别手写数字

利用 Python 搭建起了一个简单的神经网络模型，并完成识别手写数字。 1.前置工作 1.1 环境配置这里使用scikit-learn库内建的手写数字字符集作为本文的数据集。s…

人工智能 2023年6月15日
0091
Windows11+VS2019+CUDA11.8配置过程

最近要处理大规模点云数据，用CPU跑感觉有点慢，想通过GPU加速点云处理过程，于是想要学习CUDA编程。很多教程提到在安装CUDA之前，需要打开cmd，输入nvidia-smi…

人工智能 2023年7月27日
00100
【数字图像处理】霍夫(Hough)变换

系列文章目录本系列主要是在阅读论文时的学习笔记，在遇到较为经典的数字图像处理的算法和知识点，对其进行整理和总结，主要包括原理，方法，算法等。（希望可以坚持下来）系列文章目录如下…

人工智能 2023年6月20日
00108
Hadoop核心之MapReduce框架总结Ⅰ

说明：在每一章节的重点概括，是笔者理解，感觉比较重要的内容，仅供笔者复习时使用。 MapReduce框架总结目录 1. MapReduce概述 * 1.1 MapReduce定义 …

人工智能 2023年6月29日
0083
Ae 效果快速参考：音频

音频 Audio 调制器 Modulator 通过改变频率和幅度将颤音和颤音添加到音频中。 [En] Vibrato and vibrato are added to the au…

人工智能 2023年5月25日
0087
【自主探索】CMU Autonomous Exploration系列笔记

链接:Development Environment CMU机器人研究所于2021年7月开源全套移动机器人自主导航和探索框架,其主要算法都出自近两年CMU发出的顶会论文.该框架主要…

人工智能 2023年6月10日
0078
【Python数据分析与可视化】期末复习笔记整理（不挂科）

大 _数据分析_与应用 _期末_考试一，单项选择题，每小题1分，20小题共计20分 1、当前大数据技术的基础是由（）首先提出的。 [单选题] * A、微软 B、百度 C、谷歌(正…

人工智能 2023年7月17日
0081
Attention Mechanisms in Computer Vision: A Survey综述详解

1.简介 2021年11月16日，清华大学计图团队和南开大学程明明教授团队、卡迪夫大学Ralph R. Martin教授合作，在ArXiv上发布关于计算机视觉中的注意力机制的综述文…

人工智能 2023年7月28日
0072
基于Pytorch肺部感染识别案例（采用ResNet网络结构）

一、整体流程 github代码地址 1.数据集下载地址：https://www.kaggle.com/paultimothymooney/chest-xray-pn…

人工智能 2023年7月23日
0039
利用OpenCV进行Tonemapping

背景最近学习深度学习涉及到了一些HDR图片的读取，HDR全称是High-Dynamic Range，在显示HDR图片的时候，如果不进行色调映射，也就是Tone map的话，那显示…

人工智能 2023年6月4日
0083
FPGA图像处理_中值滤波、均值滤波、极值滤波

FPGA实现图像滤波（中值滤波、均值滤波、极值滤波）前言一、滤波原理二、FPGA上Verilog实现步骤 * 1.图像周围填0 2.数据延迟 3.数据处理总结前言首先介…

人工智能 2023年6月22日
0077
【吴恩达deeplearning.ai】Course 5 – 序列模型 – 第一周测验

总结习题第 141 题假设你的训练样本是句子(单词序列)，下面哪个选项指的是第i个训练样本中的第j个词? A.x ( i ) < j > x^{(i)x (i )…

人工智能 2023年5月27日
0066

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

01.浅谈深度学习中Batch_size的大小对模型训练的影响

大家都在看