【小记】BatchSize的数值是设置的越大越好吗

2023年6月23日上午6:10 • 人工智能 • 阅读 70

通常我们可能会认为设置较大的batchsize时，模型的训练效果会比较好。原因有以下几点：

1、模型由于每次得到较多的训练数据，模型的下降方向会更加准确，模型训练曲线会更加平滑。

2、减少了训练时间。同样的epoch时，batchsize需要的batch数目减少了，所以处理速度变快了。

但是啊但是，

较大的batchsize有以下几点问题需要注意：

1、内存问题。较大的batch可能会造成内存/显存溢出

2、泛化能力下降。这一点是我之前没有考虑到的一点。使用太大的批处理大小可能会在训练期间对网络的准确性产生负面影响，因为它减少了梯度下降的随机性。

使用较小的批处理大小产生更不稳定、更随机的权重更新。这有两个积极的影响。首先，它可以帮助训练”跳出”之前可能陷入的局部最小值，其次，它可以使训练稳定在”更平坦”的最小值，这通常表明泛化性能更好。

上面这篇链接里(侵删)指出：

当有足够算力时，选取batch size为32或更小一些。
算力不够时，在效率和泛化性之间做trade-off，尽量选择更小的batch size。
当模型训练到尾声，想更精细化地提高成绩（比如论文实验/比赛到最后），有一个有用的trick，就是设置batch size为1，即做纯SGD，慢慢把error磨低。

Original: https://blog.csdn.net/vibration_xu/article/details/126267108
Author: XingshiXu
Title: 【小记】BatchSize的数值是设置的越大越好吗

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/646778/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

一文讲清楚CUDA、CUDA toolkit、CUDNN、NVCC关系

目录主要参考一、CUDA/cudnn/CUDA Toolkit/NVCC区别简介二、CUDA Toolkit具体组成三、NVCC简介四、版本管理 * 1、pytorch运…

人工智能 2023年5月27日
00103
Pyqt5+Yolov5+Mss实现一个实时桌面检测软件

文章目录写在前面的话一、明确功能目标二、UI设计 * 1.选择主界面三、功能的实现 * 1.构建信号槽,为关闭按钮添加功能 2.剥离yolo模型载入代码,载入训练好的模型,…

人工智能 2023年7月13日
0050
004-定时器的使用

实现定时器的使用定时器的使用功能：实现定时器的使用方案一： #include<reg52.h> sbit LED = P2^0; void main() { un…

人工智能 2023年6月6日
0055
opencv 阈值处理(python)

阈值处理 * – + * 阈值处理 * – threshold函数 – + 二值化阈值处理（cv2.THRESH_BINARY） + 反二值化阈…

人工智能 2023年6月20日
0066
数据挖掘实验（七）Matlab实现聚类算法【clusterdata / kmeans】

本文代码均已在 MATLAB R2019b 测试通过，如有错误，欢迎指正。另外，这次实验都是调用Matlab现成的函数，没什么技术含量。（一）聚类分析的原理 [TencentC…

人工智能 2023年6月2日
00109
Mac下安装anaconda3，配置pytorch环境，安装jupyter

一、安装anaconda3 1、官网下载anaconda3图形化安装包。现在默认是3.9版本，也可以选择别的版本。 2、安装anaconda3：一直点继续，安装位置我选择&#82…

人工智能 2023年7月21日
0047
Anaconda镜像安装tensorflow-gpu与Keras，与GPU版pytorch （Windows系统）

目录一、 Anaconda镜像安装GPU版pytorch * 1.1 安装 Anaconda环境管理工具 1.2 pytorch环境安装固定步骤 1.3. 导入镜像包 1.4. …

人工智能 2023年5月25日
0067
【实体识别】深入浅出讲解命名实体识别（介绍、常用算法）

命名实体识别的背景命名实体识别（Named Entity Recognition, 简称 NER）（也称为实体识别、实体分块和实体提取）是信息提取的一个子任务，旨在将文本中的命名…

人工智能 2023年6月23日
00156
Golang学习之路5-结构体/类封装等使用

文章目录前言一、结构体 * 1.声明结构体 2.匿名结构体二、类 * 1.封装及绑定 2.继承 3.多态及接口 4.类访问权限总结前言 go语言支持类的操作，但是没有cl…

人工智能 2023年6月27日
0066
siammask

半监督视频对象分割：给定用户感兴趣物体在视频第一帧的分割区域，算法来获取在后续帧上的物体分割区域。在线学习：根据第一帧物体的gt，利用 one-shot learning的…

人工智能 2023年7月10日
0040
envi5.3处理高分二号影像数据详细过程记录

目录一、多光谱影像处理 1. 辐射定标 2.大气校正 1. 需要准备一些数据: 2.大气校正过程 3、正射校正二、全色影像处理 1. 辐射定标 2. 正射校正三、图像融合 1…

人工智能 2023年6月17日
0075
吉布斯采样

回顾一下MC 采样： f(x)是已知的概率分布函数，现在找到一系列的x服从这个概率分布。也就是在f(x）当中抽取一些样本x。后来就提出了： F(x)是f(x)的累积概率分布，只…

人工智能 2023年6月15日
0071
FPGA图像处理——YCbCr灰度转换

之前的单通道灰度转换作为一个图像处理FPGA框架搭建完成后的一个简单效果的测试，其图像的层次感有待提高，图像处理灰度转换用的更多的还是YCbCr。一、YCbCrYCbCr或Y&#8…

人工智能 2023年6月20日
0080
五、CNN-LSTM数据驱动模型

CNN-LSTM数据驱动模型深度学习是机器学习前沿且热门的理论，而其中的两大框架卷积神经网络（CNN）以及长短期记忆网络（LSTM）是深度学习的代表，CNN能过够通过使用卷积核从…

人工智能 2023年6月23日
0074
python用函数求n个数的平均值_Python pandaps创建一个函数来计算n列行的平均值

我有两个不同的抛硬币数据帧。我想做一个函数，它可以找到两件事：平均得分(满分100%)，其中正面=1，反面=0 他们为了得到这个分数而玩的游戏的数量是否可以为n列设置动态函数？在…

人工智能 2023年7月8日
0057
第十四届蓝桥杯模拟赛第一期试题【Java解析】

目录 A 二进制位数问题描述答案提交参考答案解析 B 晨跑问题描述答案提交参考答案解析 C 调和级数问题描述答案提交参考答案解析 D 山谷问题描述答案提…

人工智能 2023年7月30日
0050

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【小记】BatchSize的数值是设置的越大越好吗

大家都在看