warm-up of the learning rate （预热学习率）

2023年7月14日上午12:57 • 人工智能 • 阅读 79

由于刚开始训练时,模型的权重(weights)是随机初始化的，此时若选择一个较大的学习率,可能带来模型的不稳

定(振荡)，选择Warmup预热学习率的方式，可以使得开始训练的几个epoch或者一些step内学习率较小,在预热的

小学习率下，模型可以慢慢趋于稳定,等模型相对稳定后再选择预先设置的学习率进行训练,使得模型收敛速度变 得更快，模型效果更佳。

下面是自己看论文里面别人使用这个预热学习率的代码：

def warmup_learning_rate(args, epoch, batch_id, total_batches, optimizer):
    if args.warm and epoch  args.warm_epochs:
        p = (batch_id + (epoch - 1) * total_batches) / \
            (args.warm_epochs * total_batches)
        lr = args.warmup_from + p * (args.warmup_to - args.warmup_from)

        for param_group in optimizer.param_groups:
            param_group['lr'] = lr

🔗 参考链接: SupContrast: Supervised Contrastive Learning

为什么warmup有效

为什么warm-up 有效这点我没有深究，但是从使用它的效果来看可以得到如下结论：

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳

有助于保持模型深层的稳定性

从训练效果可以体现为：

一开始神经网络输出比较random，loss比较大，容易不收敛，因此用小点的学习率, 学一丢丢，慢慢涨上去。

梯度偏离真正较优的方向可能性比较大，那就走短一点错了还可以掰回来。

这里有一篇文章关于解释为什么warm-up有效，但是还是没有完全说清楚：

🔗 参考链接: 神经网络中 warmup 策略为什么有效；有什么理论解释么？

参考文献

1. 聊一聊学习率预热linear warm-up

📞 联系 👨

Original: https://blog.csdn.net/wyf2017/article/details/123956875
Author: 流年若逝
Title: warm-up of the learning rate （预热学习率）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/690974/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Bert+LSTM+CRF命名实体识别pytorch代码详解

Bert+LSTM+CRF命名实体识别从0开始解析源代码。理解原代码的逻辑，具体了解为什么使用预训练的bert，bert有什么作用，网络的搭建是怎么样的，训练过程是怎么训练的，…

人工智能 2023年5月27日
0090
ModuleNotFoundError: No module named ‘transformers‘，已经安装了transformers库

明明已经安装了transformers库了，运行代码时却说找不到。先说明我的环境。系统：windowsIDE：pycharm框架：PyTorch包管理：Anaconda 我用的w…

人工智能 2023年7月30日
0051
V2X-Hub，车路协同云控平台

为什么会关注到这个项目呢? 车路协同系统里,有一个云控平台的概念,之前设计了一个版本的云控平台,后来又从底层重新思考云控平台,以及关注和了解到国内开源社区的OpenV2X云控平台解…

人工智能 2023年6月11日
00146
程序员都看不懂的代码

–– coding:utf-8-–import pandas as pdaa =’./data/mingribooks.xls&#8…

人工智能 2023年7月8日
0076
分类预测 | MATLAB实现RF(随机森林)分类预测

分类预测 | MATLAB实现RF(随机森林)分类预测目录 * – 分类预测 | MATLAB实现RF(随机森林)分类预测 – + 基本介绍 + 算法描述…

人工智能 2023年7月2日
0067
在Convolutional网络中使用的优化器有哪些选择？它们的工作原理和优缺点是什么

优化器的选择在卷积神经网络中，优化器的选择对于模型的性能和训练速度都具有重要影响。常用的优化器包括梯度下降法（Gradient Descent）、动量法（Momentum）、Ad…

人工智能 2024年1月3日
0039
TimedCache 带时间缓存工具类，附加监听回调 | Java工具类

简述我们在工作中会碰到需要使用带过期时间的缓存场景。但是使用redis有太重了，毕竟缓存的数据很小，放在内存够够的。hutools提供了TimedCache时间缓存工具，可以实现…

人工智能 2023年6月4日
0079
调用云服务实现语音识别合成以及感情分析

人工智能 2023年5月23日
00100
2021年华为杯数学建模比赛——二分类与回归问题（1）

前言：作者在2021年10月参加了华为杯研究生数学建模比赛，历经5天的比赛，最终结果是全国二等奖，还算不错。作为队伍中的编程手和建模者，我使用的是jupyter notebook…

人工智能 2023年6月11日
0083
MATLAB保存数据的几种方式

在利用MATLAB进行数据处理和科研学习的时候经常需要将数据保存下来，软件本身有几种保存方式。由于经常忘记，所以这里总结和整理下来，一是提醒自己，二是若能对他人有一丁点帮助，那也是…

人工智能 2023年6月17日
001.4K
【论文知识点笔记】PixelRL（强化学习+全卷积+策略学习+价值学习）

### 回答1： Kafka和Spark Streaming是大数据领域中非常重要的技术，它们可以协同工作，实现实时数据处理和分析。Kafka是一个分布式的消息队列系统，可以高效地…

人工智能 2023年7月14日
0098
大衣哥唱火的《火火的情怀》，和合国际会100万向孟文豪收购吗

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月28日
0065
【WWW2021】图知识蒸馏

WWW2021《Extract the Knowledge of Graph Neural Networks and Go Beyond it: An Effective Know…

人工智能 2023年7月14日
0080
训练时是否使用显卡和怎么使用多张显卡的问题

前言：修改代码时心生疑问，故写此文章，以便参考。 *model.to(device)和model.cuda()的区别： .to(device) 可以指定CPU 或者GPU devi…

人工智能 2023年7月22日
0091
【机器学习】：如何对你的数据进行分类？

机器学习：如何对你的数据进行分类 🌸个人主页：JoJo的数据分析历险记 📝个人介绍：统计学top3研究生 💌如果文章对你有帮助，欢迎✌ 关&#x6C…

人工智能 2023年7月3日
0078
R实战 | 限制性立方样条(RCS)

RCS 在科学研究中，我们经常构建回归模型来分析 自变量和 因变&am…

人工智能 2023年6月23日
0094

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

warm-up of the learning rate （预热学习率）

目录

大家都在看