PyTorch提供了哪些常见的优化器和损失函数

2024年1月4日下午5:49 • 人工智能 • 阅读 42

问题背景

PyTorch是一个基于Python的科学计算包，主要用于深度学习任务。在深度学习中，优化器和损失函数是非常重要的组成部分。优化器用于更新模型的参数，使其能够更好地拟合训练数据，而损失函数用于评估模型在训练数据上的表现。本文将介绍PyTorch提供的一些常见优化器和损失函数，包括算法原理、公式推导、计算步骤和代码示例。

PyTorch提供的常见优化器

PyTorch提供了许多常见的优化器，包括随机梯度下降（SGD）、Adam、Adagrad等。下面将对每个优化器进行详细介绍。

随机梯度下降（SGD）

SGD是最早也是最简单的优化器之一。其更新参数的过程可以通过以下公式表示：

$$
\theta_{t+1} = \theta_t – \alpha \cdot \nabla J(\theta_t)
$$

其中，$\theta_t$表示第t个迭代步骤时模型的参数，$\alpha$表示学习率，$J(\theta_t)$表示损失函数。$\nabla J(\theta_t)$表示损失函数$J(\theta_t)$对参数$\theta_t$的梯度。在每个迭代步骤中，根据当前梯度和学习率来更新参数。

以下是使用SGD优化器的示例代码：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
model = nn.Linear(10, 1)
# 定义损失函数
criterion = nn.MSELoss()
# 定义优化器，学习率为0.01
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 训练过程
for epoch in range(100):
 # 前向传播
 outputs = model(inputs)
 # 计算损失
 loss = criterion(outputs, targets)
 # 梯度清零
 optimizer.zero_grad()
 # 反向传播
 loss.backward()
 # 更新参数
 optimizer.step()

在上述代码中，我们首先定义了一个线性模型、一个均方误差损失函数和一个SGD优化器。然后使用随机产生的输入数据和目标数据进行训练。在每个迭代步骤中，计算模型的输出和损失值，清零梯度，进行反向传播，并使用优化器更新参数。

Adam

Adam是一种自适应学习率的优化器，它综合了Momentum和RMSProp算法的优点。其更新参数的过程可以通过以下公式表示：

$$
m_t = \beta_1 \cdot m_{t-1} + (1 – \beta_1) \cdot g_t \
v_t = \beta_2 \cdot v_{t-1} + (1 – \beta_2) \cdot g_t^2 \
\hat{m}t = \frac{m_t}{1 – \beta_1^t} \
\hat{v}_t = \frac{v_t}{1 – \beta_2^t} \
\theta{t+1} = \theta_t – \frac{\alpha \cdot \hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}
$$

其中，$\beta_1$和$\beta_2$是可以配置的超参数，分别用于控制梯度的一阶和二阶矩估计的衰减率。$m_t$和$v_t$分别表示梯度的一阶和二阶矩估计，$\hat{m}_t$和$\hat{v}_t$表示偏差修正的一阶和二阶矩估计，$\alpha$表示学习率，$\epsilon$是一个小值，用于避免除以0的情况。

以下是使用Adam优化器的示例代码：

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
model = nn.Linear(10, 1)
# 定义损失函数
criterion = nn.MSELoss()
# 定义优化器，学习率为0.001
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 训练过程
for epoch in range(100):
 # 前向传播
 outputs = model(inputs)
 # 计算损失
 loss = criterion(outputs, targets)
 # 梯度清零
 optimizer.zero_grad()
 # 反向传播
 loss.backward()
 # 更新参数
 optimizer.step()

在上述代码中，我们首先定义了一个线性模型、一个均方误差损失函数和一个Adam优化器。然后使用随机产生的输入数据和目标数据进行训练。在每个迭代步骤中，计算模型的输出和损失值，清零梯度，进行反向传播，并使用优化器更新参数。

PyTorch提供的常见损失函数

PyTorch提供了许多常见的损失函数，包括均方误差（MSE）、交叉熵损失、二分类交叉熵损失等。下面将对每个损失函数进行详细介绍。

均方误差（MSE）

均方误差是最常见的回归问题损失函数，用于衡量模型的输出与目标值之间的差距。其计算方式为将模型输出与目标值之差的平方求和，并除以样本数量。具体计算公式如下：

$$
MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i – \hat{y}_i)^2
$$

其中，$N$为样本数量，$y_i$为第i个样本的目标值，$\hat{y}_i$为第i个样本的模型预测值。

以下是使用均方误差损失函数的示例代码：

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 1)
# 定义均方误差损失函数
criterion = nn.MSELoss()

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 前向传播
outputs = model(inputs)
# 计算均方误差损失
loss = criterion(outputs, targets)

在上述代码中，我们首先定义了一个线性模型和一个均方误差损失函数。然后使用随机产生的输入数据和目标数据进行前向传播，并计算均方误差损失。

交叉熵损失

交叉熵损失是用于分类问题的常见损失函数，尤其适用于多分类问题。其计算方式为将模型输出与目标概率分布之间的差距进行交叉熵计算，并求平均。具体计算公式如下：

$$
CrossEntropyLoss = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{C} y_{ij} \log(\hat{y}_{ij})
$$

其中，$N$为样本数量，$C$为类别数量，$y_{ij}$表示样本i的目标概率分布中第j个类别的概率，$\hat{y}_{ij}$为模型对样本i的输出中第j个类别的概率的预测。

以下是使用交叉熵损失函数的示例代码：

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 3)
# 定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randint(3, (100,))

# 前向传播
outputs = model(inputs)
# 计算交叉熵损失
loss = criterion(outputs, targets)

在上述代码中，我们首先定义了一个线性模型和一个交叉熵损失函数。然后使用随机产生的输入数据和目标数据进行前向传播，并计算交叉熵损失。

结论

本文介绍了PyTorch提供的一些常见优化器和损失函数，包括随机梯度下降（SGD）、Adam、Adagrad等优化器，以及均方误差（MSE）、交叉熵损失等损失函数。对于每个优化器和损失函数，我们介绍了其算法原理、公式推导、计算步骤和使用示例代码。这些优化器和损失函数在深度学习任务中具有重要作用，可以帮助我们更好地训练和评估模型。

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823849/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python：向json里面追加数据

json以其轻量级的数据交换格式，且易于阅读和编写而使用率很广泛，而使用json的过程中时而需要增加字段，本人验证两种方式之后将其集成梳理。具体操作详情如下： 1. lis…

人工智能 2023年7月5日
0065
openCV实践项目：图片文本检测

上一期我们通过对实验：银行卡卡号识别加深了对前面所学openCV图像处理的一些理解 openCV实践项目：银行卡卡号识别_老师我作业忘带了的博客-CSDN博客本次图片文本检测相…

人工智能 2023年6月17日
0067
【DETR】训练自己的数据集-实践笔记

DETR(Detection with TRansformers)训练自己的数据集-实践笔记&问题总结 DETR(Detection with TRansformers)是…

人工智能 2023年7月9日
0075
Prompt-Tuning——深度解读一种新的微调范式

Prompt-Tuning——深度解读一种全新的微调范式作者：王嘉宁邮箱：lygwjn@126.com转载请注明出处：https://wjn1996.blog.csdn.net…

人工智能 2023年5月27日
0083
[paper] lift,splat,shooting 论文浅析

目录 00 前言 01 创新点 02 算法细节 Lift:潜在深度分布： Splat: Pillar Pooling（支柱池） Shoot: Motion Planning 03 …

人工智能 2023年6月24日
0067
Python 使用pandas库处理csv文件

Python数据分析系列第一章 csv文件处理进阶目录 Python数据分析系列一、pandas是什么？二、使用步骤 * 1.引入库 2.读入数据 3.数据获取和处理 &#…

人工智能 2023年6月19日
0080
快速解决“多分类不平衡”问题

在机器学习中，经常会遇到分类不平衡问题。简单来说，就是多分类时有的类别数量少，会影响整体模型的准确率。目录前言一、问题详细描述 1.项目介绍 2.调参尝试二、分析原因 1….

人工智能 2023年7月5日
0070
100个python算法超详细讲解：牛顿迭代法求方程根

1．问题描述编写用牛顿迭代法求方程根的函数。方程为ax 3 +bx 2 +cx+d=0，系数a、b、c、d由主函数输入，求x在1附近的一个实根。求出根后，由主函数输出。 2．问题分…

人工智能 2023年6月16日
0061
Pytorch中卷积层转向全连接层时，全连接层输入维度的确定

Pytorch中卷积层转向全连接层时，全连接层输入维度的确定 * – 一、代码法： – + 改变的AlexNet网络结构： + AlexNet &#8211…

人工智能 2023年7月21日
0051
scipy的安装教程

导读上篇文章Python的数学计算库scipy介绍中已经详细介绍过了 scipy的用途，这篇文章主要来介绍如何安装scipy，本篇文章安装Python包的方法适用于其他的包安装…

人工智能 2023年7月4日
0088
deepface：最先进轻量级人脸识别和人脸属性分析框架讲解

介绍 Deepface 是一个用于 python 的轻量级人脸识别和人脸属性分析（年龄、性别、情感和种族）框架。它是一个混合人脸识别框架。 deepface包含最先进的模型：VGG…

人工智能 2023年5月26日
00140
混淆矩阵的概念

目录 1 混淆矩阵 2 从混淆矩阵得到分类指标 2.1 精确率（Accuracy） 2.2 正确率或者准确率（Precision） 2.3 召回率（Recall） 2.4 精确率（…

人工智能 2023年7月4日
00131
《面向对话的融入交互信息的实体关系抽取》–中文信息学报

实体关系抽取旨在从文本中抽取出实体之间的语义关系，是自然语言处理的一项基本任务。在新闻报道，维基百科等规范文本上，该任务的研究相对丰富且已取得了一定的效果，但面对对话文本的相关研究…

人工智能 2023年6月10日
00129
High-Resolution Network (篇一)：原理刨析

计算机视觉可以分为两类任务：图像分类、其他任务。对于图像分类任务而言，通常需要更加浓缩的语义信息，并不需要高分辨率的表征，只需要输出一个整体的标签即可。对于目标检测(区域级别分类…

人工智能 2023年5月28日
0060
pytorch使用GPU

文章目录 * – + 1.查看GPU状态 + 2.指定GPU + 3.张量与GPU + 4.神经网络指定GPU设备运行 + 5.多GPU训练 + * 5.1 模型并行 …

人工智能 2023年7月20日
0061
opencv C++ SVM模型训练与分类实现

最近想学习一下分类算法的内容，恰好opencv有SVM的函数，故先从这个下手。找了许多资料，发现要么是opencv2、3的，要么就没有具体实现代码，学习还是把代码与原理一起结合来看…

人工智能 2023年6月19日
0067

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30