pytorch 自定义损失函数、优化器（Optimizer）和学习率策略

2023年7月21日下午10:29 • 人工智能 • 阅读 109

文章目录

本节内容
梯度下降回顾
Pytorch 实现梯度下降与参数更新
自定义损失函数
自定义优化器
自定义学习率策略
*
使用 LambdaLR 实现简单的学习率策略
通过继承 _LRScheduler 实现自定义的学习率策略
通过手动更新Optimizer中的学习率来自定义学习策略
参考资料

本节内容

梯度下降回顾
理解Pytorch模型定义、前向传播、反向传播、更新梯度的过程
学会并理解自定义损失函数
学会并理解优化器的作用和使用
学会并理解自定义学习策略的多种方法

梯度下降回顾

我们首先来简单的回顾一下梯度下降，我们使用一个很简单的例子来说明。

假设我们要进行一元线性回归，即我们想求 y = θ x + b y = \theta x +b y =θx +b 中的未知参数 θ \theta θ 和 b b b 。

首先我们会对θ \theta θ 和b b b 进行初始化，例如，初始化为100 100 100 和50 50 50，则我们的初始化方程为：

y = θ x + b = 100 x + 50 y = \theta x + b = 100 x + 50 y =θx +b =100 x +50

之后，我们拿一组样本来带入上述函数，求出这组样本的预测值，这里我们假设只有一组样本( x , y ^ ) = ( 3 , 348 ) (x, \hat{y})=(3, 348)(x ,y ^)=(3 ,348 )，之后我们会将x = 3 x=3 x =3 带入到上式中，求出预测值：

y = θ ∗ 3 + b = 100 ∗ 3 + 50 = 350 y = \theta * 3 + b = 100 * 3+ 50 = 350 y =θ∗3 +b =100 ∗3 +50 =350

之后我们使用均方误差损失函数（MSE）来求出损失：

L = ( y − y ^ ) 2 = ( θ x + b − y ^ ) 2 = ( 350 − 348 ) = 2 L = (y-\hat{y})^2 = (\theta x+b – \hat{y})^2 =(350-348)=2 L =(y −y ^)2 =(θx +b −y ^)2 =(350 −348 )=2

与此同时，我们可以对使用损失函数L L L 对θ \theta θ 和b b b 进行求导，来算出他们的梯度：

∂ L ∂ θ = 2 ( θ x + b − y ^ ) x = 2 ( 100 ∗ 3 + 50 − 348 ) ∗ 3 = 12 \frac{\partial L}{\partial \theta} = 2(\theta x+b-\hat{y})x=2(1003+50-348)3 = 12 ∂θ∂L =2 (θx +b −y ^)x =2 (100 ∗3 +50 −348 )∗3 =12

∂ L ∂ b = 2 ( θ x + b − y ^ ) = 2 ( 100 ∗ 3 + 50 − 348 ) = 4 \frac{\partial L}{\partial b} = 2(\theta x + b- \hat{y}) = 2(100*3+50-348)=4 ∂b ∂L =2 (θx +b −y ^)=2 (100 ∗3 +50 −348 )=4

然后就可以使用优化器(Optimizer)更新θ \theta θ 和b b b 参数了，如果使用SGD，那就是如下公式，假设学习率是2：

θ ← θ − l r ∗ ∂ L ∂ θ = 100 − 2 ∗ 12 = 76 \theta \leftarrow \theta – lr * \frac{\partial L}{\partial \theta} = 100 – 2*12=76 θ←θ−l r ∗∂θ∂L =100 −2 ∗12 =76

b ← θ − l r ∗ ∂ L ∂ b = 50 − 2 ∗ 4 = 42 b \leftarrow \theta – lr * \frac{\partial L}{\partial b} = 50 -2*4=42 b ←θ−l r ∗∂b ∂L =50 −2 ∗4 =42

最终，在一次迭代后，θ \theta θ 变为了76 76 76，b b b 变为了42 42 42，即：

y = θ x + b = 76 x + 42 y = \theta x + b = 76 x+42 y =θx +b =76 x +42

Pytorch 实现梯度下降与参数更新

本节我们来对上一节的例子使用Pytorch进行实验，来感受一下Pytorch的梯度下降：

首先我们会对θ \theta θ 和b b b 进行初始化，例如，初始化为100 100 100 和50 50 50，我们的初始化代码为：

theta = Variable(torch.FloatTensor([100]), requires_grad=True)
b = Variable(torch.FloatTensor([50]), requires_grad=True)
x = 3
y_hat = 348

由于 theta 和 b 是需要求梯度的，所以用Variable封装

接下来我们将x x x 带入到y = θ x + b y = \theta x + b y =θx +b 中求出预测值：

y = theta * x + b
y

输出为：

tensor([350.], grad_fn=<addbackward0>)
</addbackward0>

之后我们使用均方误差损失函数（MSE）来求出损失：

L = (y-y_hat) ** 2
L

输出为：

tensor([4.], grad_fn=<powbackward0>)
</powbackward0>

接下来，我们使用损失对需要L函数中的变量进行求导：

L.backward()
print("theta.grad:", theta.grad)
print("b.grad:", b.grad)

输出为：

theta.grad: tensor([12.])
b.grad: tensor([4.])

然后就可以使用优化器更新θ \theta θ 和b b b 参数了，这里使用SGD，学习率为2：

optimizer = torch.optim.SGD([theta, b], lr=2)
optimizer.step()
print("theta:", theta)
print("b:", b)

最终，在一次迭代后，θ \theta θ 变为了76 76 76，b b b 变为了42 42 42

在看完这个例子后，相信你已经知道pytorch的模型、损失函数、优化器在整个模型训练中都扮演者什么样的作用了，其实就是以下几点：

模型的作用其实就是执行一系列的函数运算，在上述例子中模型就是 y = theta * x + b，入参为x x x，调用forward也就是执行该式子
损失函数其实也是执行一系列函数运算，在上述例子就是 L = (y-y_hat) ** 2，所以其实损失函数和模型在Pytorch中并没有什么本质的区别，它们都是继承 nn.Module。只是模型A（模型）的输出作为模型B（损失函数）的输入又进行了一些计算，只不过最后计算梯度的时候是对模型B进行求微分，也就是上面的 L.backward()
最后，要将变量的梯度更新到变量上，这时候就是优化器出场了，它负责执行公式θ ← θ − l r ∗ ∂ L ∂ θ \theta \leftarrow \theta – lr * \frac{\partial L}{\partial \theta}θ←θ−l r ∗∂θ∂L 。因为在更新梯度上，并不是简单的梯度乘以学习率，不同的人有不同的想法，所以才会出现Adam等不同的优化器。

自定义损失函数

看完了上面两节，自定义损失函数应该就不攻自破了。其实损失函数就是定义一个模型，再多进行一步前向传递即可。这里我们将上一节的例子再进行一下改造。

首先，我们定义出我们的模型：

class SimpleModel(nn.Module):

    def __init__(self):
        super(SimpleModel, self).__init__()

        self.theta = Variable(torch.FloatTensor([100]), requires_grad=True)
        self.b = Variable(torch.FloatTensor([50]), requires_grad=True)

    def forward(self, x):
        return self.theta * x + self.b

接下来定义损失函数：

class SimpleMSELoss(nn.Module):

    def __init__(self):
        super(SimpleMSELoss, self).__init__()

    def forward(self, y, y_hat):
        return (y - y_hat) ** 2

读者们可以尝试下如何把它们两个合并

最后我们来使用一下：

x = 3
y_hat = 348

model = SimpleModel()
criteria = SimpleMSELoss()
y = model(3)
loss = criteria(y, y_hat)
loss.backward()
print("theta.grad:", model.theta.grad)
print("b.grad:", model.b.grad)

输出为：

theta.grad: tensor([12.])
theta.b: tensor([4.])

自定义优化器

在Pytorch中自定义优化器需要继承基类 torch.optim.Optimizer，然后实现其 step方法即可。

Optimizer的部分源码如下：

class Optimizer(object):

    def __init__(self, params, defaults):
        ...
        param_groups = list(params)
        ...
        if not isinstance(param_groups[0], dict):
            param_groups = [{'params': param_groups}]
        ...

    def step(self, closure):
        raise NotImplementedError

Optimizer的初始化方法需要两个必填参数：

params：这个就是模型参数，严格来说应该是要进行更新的参数。Optimizer会将其放在param_groups这个变量下
defaults：这个是模型的一些默认配置。传空字典也没关系

Optimizer最重要的是 step方法，这个是用户需要进行参数更新的地方，用户需要自己实现该方法，通常是从param_groups拿出模型参数，然后进行更新。

我们还接着之前的例子，实现一个简单的优化器，我们优化器的需求是：和SGD类似，但是每次学习率都乘以一个[0-1]的随机数。代码如下：

class MyOptimizer(Optimizer):

    def __init__(self, params, lr):
        self.lr = lr
        super(MyOptimizer, self).__init__(params, {})

    def step(self, closure=False):
        random_num = 0.4

        for param_group in self.param_groups:
            params = param_group['params']

            for param in params:

                param.data = param.data - self.lr * random_num * param.grad

然后用法和内置的Optimizer一致：

optimizer = MyOptimizer([model.theta, model.b], lr=2)
optimizer.step()
print("theta:", model.theta)
print("b:", model.b)

输出为：

theta: tensor([90.4000], requires_grad=True)
b: tensor([46.8000], requires_grad=True)

自定义学习率策略

要定义学习策略，其实最好的方式就是把他集成在Optimizer中，例如 torch.optim.Adagrad就是这么做的。但很多时候我们并不想改变原有的复杂算法，只是想对他的学习率动一下手脚，此时就用到了自定义学习策略。

Pytorch实现了很多自定义学习策略，具体可参考该链接。

我们先使用一个Pytorch实现好的，来看一下怎么用。假设需求为：更新100次参数，每10步将学习率减小一半。针对这个需求，我们可以使用 torch.optim.lr_scheduler.StepLR来完成。代码如下：

epoch = 100

theta_list = []

theta = Variable(torch.FloatTensor([1]), requires_grad=True)

optimizer = torch.optim.SGD([theta], lr=0.1)

lr_scheduler = StepLR(optimizer, step_size=10, gamma=0.5)

for i in range(epoch):

    theta.grad = torch.FloatTensor([0.1])

    optimizer.step()

    lr_scheduler.step()

    optimizer.zero_grad()

    theta_list.append(theta.item())

    print("epoch:{}, lr:{}, theta:{}".format(i, optimizer.param_groups[0]['lr'], theta.item()))

plt.plot(range(epoch), theta_list)
plt.show()

输出为：

epoch:0, lr:0.1, theta:0.9900000095367432
epoch:1, lr:0.1, theta:0.9800000190734863
... &#x7565;
epoch:8, lr:0.1, theta:0.9100000858306885
epoch:9, lr:0.05, theta:0.9000000953674316
epoch:10, lr:0.05, theta:0.8950001001358032
...&#x7565;
epoch:18, lr:0.05, theta:0.8550001382827759
epoch:19, lr:0.025, theta:0.8500001430511475
epoch:20, lr:0.025, theta:0.8475001454353333
... &#x7565;

上述例子中，我使用了0.1学习率的来对参数 theta进行更新，而参数 theta的梯度每次都固定为1。可以看到，前9次 theta每次都是下降0.01。从第10次开始，学习率减小了一半，然后每隔10次学习率都会减小一半。

使用 `LambdaLR` 实现简单的学习率策略

通常我们的学习率策略并不是很复杂，此时我们可以使用Pytorch提供的 torch.optim.lr_scheduler.LambdaLR 来实现，该方法接收两个重要参数：

optimizer：该参数就是优化器对象，每个学习率策略都要传
lr_lambda：该参数接收一个函数，该函数有一个参数 last_epoch，表示上次是第几个epoch（其实指的就是你之前调用过几次 lr_scheduler.step()）。你可以通过该参数自定义你的学习率策略，优化器在实际执行时使用的学习率会乘以该函数的返回结果，即 lr * lr_lambda(last_epoch)。注意，这里的 lr是你定义Optimizer时传入的那个学习率，而且始终不变。

例如，要实现前面的每10次将学习率降低一半，我们可以这么写：

lr_scheduler = LambdaLR(optimizer, lr_lambda=lambda epoch: 0.5 ** (epoch // 10))

通过继承 `_LRScheduler` 实现自定义的学习率策略

可能你的学习率策略比较复杂， LambdaLR 也无法满足你，此时你就要自己实现一个学习率策略。

Pytorch中，所有的学习率策略都要继承基类 torch.optim.lr_scheduler._LRScheduler，并实现该基类的一个重要方法 def get_lr(self)，你只需要按照你的学习率策略返回学习率即可。

但要实现你的学习率策略，你可能还需要用到 _LRScheduler类的这些方法和属性：

self.last_epoch：获取之前执行了多少次 lr_scheduler.step()了
self.base_lrs：基础学习率，也就是定义Optimizer时指定的那个学习率。注意，这个是一个list，可能是因为Optimizer要更新的那些参数也不一定就是使用同一个学习率，一般只有一个。同理， get_lr 方法也要返回一个list，且数量与 self.base_lrs相同。
self.optimizer：你可以通过该属性得到优化器对象。你可以通过代码 [group['lr'] for group in self.optimizer.param_groups] 获取到优化器中的学习率。你的学习率策略改变的就是这个值。
self.get_last_lr()：获取上次的学习率。这个方法其实就是返回了属性 self._last_lr。但这里有个坑， self._last_lr是在第一次调用 step()方法后才会生成，所以使用的时候可能会报错，你可以通过在 __init__方法中初始化 self._last_lr来避免报错。

有了上述这些方法，我们就可以自定义学习率策略来实现前面的每10次将学习率降低一半的策略了，代码如下：

class MyLR(_LRScheduler):

    def __init__(self, optimizer):

        self._last_lr = [group['lr'] for group in optimizer.param_groups]

        super(MyLR, self).__init__(optimizer)

    def get_lr(self):

        last_lrs = self.get_last_lr()
        if self.last_epoch != 0 and self.last_epoch % 10 == 0:

            return [lr * 0.5 for lr in last_lrs]
        else:
            return last_lrs

lr_scheduler = MyLR(optimizer)

通过手动更新Optimizer中的学习率来自定义学习策略

其实要自定义学习策略不一定非要向上述说的那样那么麻烦，你可以直接像如下代码直接更新optimizer中的学习率：

for p in optimizer.param_groups:
    p['lr'] = rate

这样其实就灵活多了，我可以自定义一个普通类来记录学习率策略需要用到的东西，然后使用上述代码更新即可。例如：

epoch = 100

theta_list = []

theta = Variable(torch.FloatTensor([1]), requires_grad=True)

optimizer = torch.optim.SGD([theta], lr=0.1)

for i in range(epoch):

    theta.grad = torch.FloatTensor([0.1])

    optimizer.step()
"""
    直接调整optimizer的学习率
"""
    for p in optimizer.param_groups:
        if (i + 1) % 10 == 0:
            p['lr'] = p['lr'] * 0.5

    optimizer.zero_grad()

    theta_list.append(theta.item())

    print("epoch:{}, lr:{}, theta:{}".format(i, optimizer.param_groups[0]['lr'], theta.item()))

plt.plot(range(epoch), theta_list)
plt.show()

参考资料

torch.optim.lr_scheduler._LRScheduler Class Reference：https://www.ccoderun.ca/programming/doxygen/pytorch/classtorch_1_1optim_1_1lr__scheduler_1_1__LRScheduler.html

SOURCE CODE FOR TORCH.OPTIM.LR_SCHEDULER

torch.optim.lr_scheduler：调整学习率: https://blog.csdn.net/qyhaill/article/details/103043637

Original: https://blog.csdn.net/zhaohongfei_358/article/details/125759911
Author: iioSnail
Title: pytorch 自定义损失函数、优化器（Optimizer）和学习率策略

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/707908/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

无监督语义相似度

没有成对的文本，如何计算语义相似度 bert方面的坑 bert计算出来句子之间的相似度很接近，在我的数据集上finetune之后稍微好一点点，用的是cls的输出直接作为句子的向量，…

人工智能 2023年6月5日
0081
成为华尔街金融巨鳄第三课： Pandas2:学会使用Pandas-DataFrame

import pandas as pd import numpy as np pd.DataFrame({"one":[1,2,3],’two’:[4,5,6]…

人工智能 2023年7月6日
0069
数字图像处理实验–实验项目一图像的基本操作和基本运算

目录前言实验项目一图像的基本操作和基本运算 1.【图像的读取操作】 2 【图像的基本运算】 3【图像的几何变换】 4【图像的灰度变换】前言数字图像处理（Digital …

人工智能 2023年6月17日
0098
局部规划算法：DWA算法原理

文章目录 * – 一、算法概述 – 二、算法原理 – + 1、运动学模型 + 2、速度采样 + 3、目标函数 – 三、应用场景 &#…

人工智能 2023年6月23日
0084
matlab:KNN实现手写数字识别

KNN算法是一种基于概率的距离算法，简单的来说就是靠近算法。首先对给出的训练集和测试集进行特征提取，计算测试集与训练集的特征欧式距离，也就是所谓的二范数。计算测试集与训练集之间的…

人工智能 2023年7月1日
00113
Opencv项目实战：14 手势控制音量

### 回答1： opencv_中的mat::zeros函数是用来创建一个指定大小和类型的全零矩阵的函数。它的语法如下： cv::Mat cv::Mat::zeros(int ro…

人工智能 2023年7月20日
0066
tensorflow导入自己的数据集

在构建tensorflow模型过程中，可谓是曲折颇多，一些教程上教会了我们如何使用下载的现成数据集，但却没有提及如何构建自己的数据集。我自己在学习过程中也走了不少弯路，希望这一系列…

人工智能 2023年5月23日
0080
利用聚类技术实现纹理图像分割

要求针对合成纹理图像中每一个像素提取纹理特征向量利用聚类技术（推荐用 k-均值聚类）对特征向量空间中的点进行聚类，类别数可根据图像中的实际纹理类数确定。最后把类属标签映射成…

人工智能 2023年5月31日
0070
Linux从入门到入土②(系统管理)

文章目录系统管理 * Linux 中的进程和服务 Service服务管理（CentOS 6 版本-了解） – 基本语法使用 systemctl服务管理（CentOS…

人工智能 2023年6月19日
0097
分享一个更高效的数据清理方法，建议收藏

在我们日常的工作、学习当中，手里拿到的数据集通常是杂乱无章的，当中存在着不少的缺失值、极值、重复值以及数据类型不对等等类似的情况，今天小编就给大家介绍一种新的数据清洗的方…

人工智能 2023年7月8日
0078
KNN基础算法原理和推导

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月2日
0069
基于数据挖掘的共享单车骑行数据分析与预测

温馨提示：文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 项目背景共享单车系统在大城市越来越流行，通过提供价格合理的自行车租赁，让人们可以享受在城市里骑…

人工智能 2023年7月26日
00133
YOLO Air一款面向科研小白的YOLO项目 | 包含大量改进方式教程

YOLO Air一款面向科研小白的YOLO项目|包含大量改进方式教程|适用YOLOv5,YOLOv7,YOLOX,YOLOv4,YOLOR,YOLOv3,transformer等算…

人工智能 2023年6月16日
00121
手把手教你玩转YOLOX–（下）数据集标注及训练

数据集的标注是做训练的重要一环，本次数据集标注以口罩检测为例，介绍使用labelimg的数据标注，并且使用YOLOX进行训练。我们从百度网上搜了一些图片，我们就拿这些图片进行标注并…

人工智能 2023年6月16日
00199
PyTorch深度学习入门 || 系列（四）——非线性回归

文章目录 0 写在前面 1 激活函数 2 人工神经网络 3 数据处理 4 定义模型 5 完整代码 0 写在前面这个系列之前学习是线性回归，但是生活中需要解决问题大多数都是非线性的…

人工智能 2023年6月17日
00108
深度学习-LeNet（第一个卷积神经网络）

文章目录简介数据集模型搭建模型训练模型测试前些天发现了一个巨牛的人工智能学习网站，通俗易懂，风趣幽默，忍不住分享一下给大家。点击跳转到网站。简介 LeNet模型是在1…

人工智能 2023年7月30日
0080

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pytorch 自定义损失函数、优化器（Optimizer）和学习率策略

文章目录

使用 LambdaLR 实现简单的学习率策略

通过继承 _LRScheduler 实现自定义的学习率策略

通过手动更新Optimizer中的学习率来自定义学习策略

大家都在看

使用 `LambdaLR` 实现简单的学习率策略

通过继承 `_LRScheduler` 实现自定义的学习率策略