Pytorch 学习率衰减之余弦退火与余弦warmup 自定义学习率衰减scheduler

2023年5月26日上午11:48 • 人工智能 • 阅读 140

学习率衰减，通常我们英文也叫做scheduler。本文学习率衰减自定义，通过2种方法实现自定义，一是利用lambda，另外一个是继承pytorch的lr_scheduler

import math
import matplotlib.pyplot as plt
import numpy as np
import torch
import torch.nn as nn
from torch.optim import *
from torchvision import models

class Net(nn.Module):
    def __init__(self):
        super(Net,self).__init__()
        self.fc = nn.Linear(1, 10)
    def forward(self,x):
        return self.fc(x)

余弦退火

当T_max=20

lrs = []
model = Net()
LR = 0.01
epochs = 100
optimizer = Adam(model.parameters(),lr = LR)
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=20, eta_min=1e-9)
for epoch in range(epochs):
    optimizer.step()
    lrs.append(optimizer.state_dict()['param_groups'][0]['lr'])
    scheduler.step()

plt.figure(figsize=(10, 6))
plt.plot(lrs, color='r')
plt.text(0, lrs[0], str(lrs[0]))
plt.text(epochs, lrs[-1], str(lrs[-1]))
plt.show()

Pytorch 学习率衰减之余弦退火与余弦warmup 自定义学习率衰减scheduler

当T_max = epochs，这就是我们经常用到的弦退火的 scheduler，下面再来看看带Warm-up的

lrs = []
model = Net()
LR = 0.01
epochs = 100
optimizer = Adam(model.parameters(),lr = LR)
scheduler = lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs, eta_min=1e-9)
for epoch in range(epochs):
    optimizer.step()
    lrs.append(optimizer.state_dict()['param_groups'][0]['lr'])
    scheduler.step()

plt.figure(figsize=(10, 6))
plt.plot(lrs, color='r')
plt.text(0, lrs[0], str(lrs[0]))
plt.text(epochs, lrs[-1], str(lrs[-1]))
plt.show()

WarmUp

下面来看看 Pytorch定义的余弦退货的公式如下
η t = η m i n + 1 2 ( η m a x − η m i n ) ( 1 + cos ⁡ ( T c u r T m a x π ) ) , T c u r ≠ ( 2 k + 1 ) T m a x ; η t + 1 = η t + 1 2 ( η m a x − η m i n ) ( 1 − cos ⁡ ( 1 T m a x π ) ) , T c u r = ( 2 k + 1 ) T m a x . \begin{aligned} \eta_t & = \eta_{min} + \frac{1}{2}(\eta_{max} – \eta_{min})\left(1 + \cos\left(\frac{T_{cur}}{T_{max}}\pi\right)\right), & T_{cur} \neq (2k+1)T_{max}; \ \eta_{t+1} & = \eta_{t} + \frac{1}{2}(\eta_{max} – \eta_{min}) \left(1 – \cos\left(\frac{1}{T_{max}}\pi\right)\right), & T_{cur} = (2k+1)T_{max}. \end{aligned}ηt ηt +1 =ηm i n +2 1 (ηm a x −ηm i n )(1 +cos (T m a x T c u r π)),=ηt +2 1 (ηm a x −ηm i n )(1 −cos (T m a x 1 π)),T c u r =(2 k +1 )T m a x ;T c u r =(2 k +1 )T m a x .

实际上是用下面的公式做为更新的, 当T c u r = T m a x T_{cur} = T_{max}T c u r =T m a x 是，c o s cos c o s部分为0，所以就等于η m i n \eta_{min}ηm i n

η t = η m i n + 1 2 ( η m a x − η m i n ) ( 1 + cos ⁡ ( T c u r T m a x π ) ) \eta_t = \eta_{min} + \frac{1}{2}(\eta_{max} – \eta_{min})\left(1 + \cos\left(\frac{T_{cur}}{T_{max}}\pi\right)\right)ηt =ηm i n +2 1 (ηm a x −ηm i n )(1 +cos (T m a x T c u r π))

这里直接根据公式的定义来画个图看看

etas = []
epochs = 100
eta_max = 1e-4
eta_min = 1e-9
t_max = epochs / 1
for i in range(epoch):
    t_cur = i
    eta = eta_min + 0.5 * (eta_max - eta_min) * (1 + np.cos(np.pi * t_cur / t_max))
    etas.append(eta)

plt.figure(figsize=(10, 6))
plt.plot(range(len(etas)), etas, color='r')
plt.text(epochs, lrs[-1], str(lrs[-1]))
plt.show()

从图上来看，跟上面的余弦退化是一样的，眼尖的都会发现lr_min 不等于eta_min=1e-9

利用Lambda来定义的

有个较小的bug（也不算，在description里有指出）

def warm_up_cosine_lr_scheduler(optimizer, epochs=100, warm_up_epochs=5, eta_min=1e-9):
"""
    Description:
        - Warm up cosin learning rate scheduler, first epoch lr is too small

    Arguments:
        - optimizer: input optimizer for the training
        - epochs: int, total epochs for your training, default is 100. NOTE: you should pass correct epochs for your training
        - warm_up_epochs: int, default is 5, which mean the lr will be warm up for 5 epochs. if warm_up_epochs=0, means no need
          to warn up, will be as cosine lr scheduler
        - eta_min: float, setup ConsinAnnealingLR eta_min while warm_up_epochs = 0

    Returns:
        - scheduler
"""

    if warm_up_epochs  0:
        scheduler = torch.optim.lr_scheduler.CosineAnnealingLR(optimizer, T_max=epochs, eta_min=eta_min)

    else:
        warm_up_with_cosine_lr = lambda epoch: eta_min + (epoch / warm_up_epochs) if epoch  warm_up_epochs else 0.5 * (
            np.cos((epoch - warm_up_epochs) / (epochs - warm_up_epochs) * np.pi) + 1)
        scheduler = torch.optim.lr_scheduler.LambdaLR(optimizer, lr_lambda=warm_up_with_cosine_lr)

    return scheduler


lrs = []
model = Net()
LR = 1e-4
warm_up_epochs = 30
epochs = 100
optimizer = SGD(model.parameters(), lr=LR)

scheduler = warm_up_cosine_lr_scheduler(optimizer, warm_up_epochs=warm_up_epochs, eta_min=1e-9)

for epoch in range(epochs):
    optimizer.step()
    lrs.append(optimizer.state_dict()['param_groups'][0]['lr'])
    scheduler.step()

plt.figure(figsize=(10, 6))  ![请添加图片描述](https://img-blog.csdnimg.cn/566b2c036b4a44598ae2a5a0548f2550.png?x-oss-process=image/watermark,type_d3F5LXplbmhlaQ,shadow_50,text_Q1NETiBAamFzbmVpaw==,size_20,color_FFFFFF,t_70,g_se,x_16)

plt.plot(lrs, color='r')
plt.text(0, lrs[0], str(lrs[0]))
plt.text(epochs, lrs[-1], str(lrs[-1]))
plt.show()

从图上看，第一个lr非常非常小，导致训练时的，第一个epoch基本上不更新

继承lr_scheduler的类

class WarmupCosineLR(lr_scheduler._LRScheduler):
    def __init__(self, optimizer, lr_min, lr_max, warm_up=0, T_max=10, start_ratio=0.1):
"""
        Description:
            - get warmup consine lr scheduler

        Arguments:
            - optimizer: (torch.optim.*), torch optimizer
            - lr_min: (float), minimum learning rate
            - lr_max: (float), maximum learning rate
            - warm_up: (int),  warm_up epoch or iteration
            - T_max: (int), maximum epoch or iteration
            - start_ratio: (float), to control epoch 0 lr, if ratio=0, then epoch 0 lr is lr_min

        Example:
            <<< epochs = 100
            <<< warm_up = 5
            <<< cosine_lr = WarmupCosineLR(optimizer, 1e-9, 1e-3, warm_up, epochs)
            <<< lrs = []
            <<< for epoch in range(epochs):
            <<<     optimizer.step()
            <<<     lrs.append(optimizer.state_dict()['param_groups'][0]['lr'])
            <<<     cosine_lr.step()
            <<< plt.plot(lrs, color='r')
            <<< plt.show()

"""
        self.lr_min = lr_min
        self.lr_max = lr_max
        self.warm_up = warm_up
        self.T_max = T_max
        self.start_ratio = start_ratio
        self.cur = 0

        super().__init__(optimizer, -1)

    def get_lr(self):
        if (self.warm_up == 0) & (self.cur == 0):
            lr = self.lr_max
        elif (self.warm_up != 0) & (self.cur  self.warm_up):
            if self.cur == 0:
                lr = self.lr_min + (self.lr_max - self.lr_min) * (self.cur + self.start_ratio) / self.warm_up
            else:
                lr = self.lr_min + (self.lr_max - self.lr_min) * (self.cur) / self.warm_up

        else:

            lr = self.lr_min + (self.lr_max - self.lr_min) * 0.5 *\
                            (np.cos((self.cur - self.warm_up) / (self.T_max - self.warm_up) * np.pi) + 1)

        self.cur += 1

        return [lr for base_lr in self.base_lrs]


epochs = 100
warm_up = 5
cosine_lr = WarmupCosineLR(optimizer, 1e-9, 1e-3, warm_up, epochs, 0.1)
lrs = []
for epoch in range(epochs):
    optimizer.step()
    lrs.append(optimizer.state_dict()['param_groups'][0]['lr'])
    cosine_lr.step()

plt.figure(figsize=(10, 6))
plt.plot(lrs, color='r')
plt.text(0, lrs[0], str(lrs[0]))
plt.text(epochs, lrs[-1], str(lrs[-1]))
plt.show()

从图上看出，第一个epoch的lr也不至于非常非常小了，达到了所需预期，当然，如果你说first epoch的lr，你也需要非常非常小(

Original: https://blog.csdn.net/jasneik/article/details/123759399
Author: jasneik
Title: Pytorch 学习率衰减之余弦退火与余弦warmup 自定义学习率衰减scheduler

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/519325/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch BiLSTM+CRF模型实现NER任务

本次实现BiLSTM+CRF模型的数据来源于DataFountain平台上的”产品评论观点提取”竞赛，数据仅用来做模型练习使用，并未参与实际竞赛评分。竞赛…

人工智能 2023年5月27日
00102
【计算机视觉】基于Python—OpenCV的手势识别详解（一）

文章目录更新日记前言前期准备识别手部模型识别视频输入方法手势识别方法完整代码结语更新日记更新日记：2022.04.18：应各位网友需求，已mp库更新后的手部识别…

人工智能 2023年6月23日
0095
跟着Cell学单细胞转录组分析(十二):转录因子分析

转录因子分析可以了解细胞异质性背后的基因调控网络的异质性。转录因子分析也是单细胞转录组常见的分析内容，R语言分析一般采用的是SCENIC包，具体原理可参考两篇文章。1、《SCENI…

人工智能 2023年7月15日
0073
西瓜书.第五章（神经网络）重点最全整理+课后习题

（神经网络知识很多且复杂，此篇是周志华老师的西瓜书对神经网络的解释，仔细学习后我对神经网络部分有了更深刻的认识，在此处致谢周老师，我也在持续学习中，之后在其他资料或文献中总结的概念…

人工智能 2023年7月14日
00104
python 实验九文件与异常

1.新建一个文本文件yzy.txt，文件内容如下慈母手中线，游子身上衣。临行密密缝，意恐迟迟归。谁言寸草心，报得三春晖。编写程序输出该文件的内容，要求使用一次性读入整个文件内容和逐…

人工智能 2023年7月5日
00133
深度学习笔记—多尺度网络结构归类总结

目录 1.什么是图像金字塔 1.1 高斯金字塔 ( Gaussian pyramid): 1.2 拉普拉斯金字塔（Laplacian pyramid） 1.3 DOG金字塔 2. …

人工智能 2023年6月24日
00134
pip换清华源一步搞定pytorch在cuda上运行（非常快！）

第一、二步安装cuda、cuDNN 先安装cuda，cuDNN,这两步在下面这个链接中讲的很详细，感谢博主分享经验(23条消息) 安装CUDA，cuDNN，Pytorch的详细教…

人工智能 2023年7月21日
00167
100天精通Python（数据分析篇）——第63天：Pandas使用自定义函数案例

### 回答1：这个问题的意思是询问一个学习 Python 数据分析_的 _100 天_计划，我的回答如下： _Python 数据分析_是非常重要的技能之一，学习它需要长时间的实…

人工智能 2023年7月6日
0097
RTX 3060 快速配置GPU版本tensorflow

目录一.Anaconda安装 1. Anaconda下载方式一：官网下载方式二：清华镜像下载 2. Anaconda安装 3. Anaconda配置 3.1 配置环境变量 3…

人工智能 2023年5月25日
0091
不登录QQ，恢复QQ聊天中的语音到电脑上，并导出为MP3

之前发过一篇文章，专门讲了如何恢复导出微信的语音到电脑上，并转为MP3，用来方便整理的，本篇文章专门讲如何恢复QQ的语音，并导出到电脑上，保存为MP3。 QQ和微信一样，聊天记录中…

人工智能 2023年5月25日
0089
APS计划排程在半导体行业的应用

自疫情爆发以来，经济迅速发展，5G、人工智能、电动汽车市场快速扩张，芯片需求进一步猛涨。诸多市场将半导体短缺视为限制增长及供应的主要原因，半导体行业也因此受到制造商、政府乃至消费者…

人工智能 2023年6月29日
0070
联邦学习实战-1:用python从零开始实现横向联邦学习

什么是联邦学习？简单来说就是在一个多方的环境中，数据集是零散的（在各个不同的客户端中），那么怎样实现机器学习算法呢？首先想到的就是将多个数据集合并合并起来，然后统一的使用传统的…

人工智能 2023年7月3日
00111
L2正则化可以通过限制参数的平方和来避免过拟合

问题描述过拟合是指机器学习模型在训练数据上学得的特征过多、过于复杂，以至于无法对新的未知数据做出准确预测的现象。为了解决过拟合问题，可以采用L2正则化方法来限制参数的平方和，从而…

人工智能 2023年12月31日
0049
论文阅读 Triple Context-Based Knowledge Graph Embedding

Triple Context-Based Knowledge Graph Embedding 基于三重上下文的知识图嵌入发表时间：Received September 10, 2…

人工智能 2023年6月1日
0062
【超详细】机器学习（西瓜书）第4章决策树知识详解

引入“这个瓜是好瓜吗？”我们对这样的问题进行决策时，通常会进行一系列的判断或子决策：我们先看”它是什么颜色？”如果它是”…

人工智能 2023年6月30日
0068
机器学习之分类回归树（CART）

前言写这一章本来是想来介绍GBDT-LR这一个推荐模型的。但是这里面就涉及到了很多机器学习的基础树形算法，思前想后还是决定分成几篇文章来写，这里先介绍一下CART数，因为在GBD…

人工智能 2023年7月3日
0062

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Pytorch 学习率衰减 之 余弦退火与余弦warmup 自定义学习率衰减scheduler