PyTorch提供了哪些常见的优化器和损失函数

问题背景

PyTorch是一个基于Python的科学计算包,主要用于深度学习任务。在深度学习中,优化器和损失函数是非常重要的组成部分。优化器用于更新模型的参数,使其能够更好地拟合训练数据,而损失函数用于评估模型在训练数据上的表现。本文将介绍PyTorch提供的一些常见优化器和损失函数,包括算法原理、公式推导、计算步骤和代码示例。

PyTorch提供的常见优化器

PyTorch提供了许多常见的优化器,包括随机梯度下降(SGD)、Adam、Adagrad等。下面将对每个优化器进行详细介绍。

随机梯度下降(SGD)

SGD是最早也是最简单的优化器之一。其更新参数的过程可以通过以下公式表示:

$$
\theta_{t+1} = \theta_t – \alpha \cdot \nabla J(\theta_t)
$$

其中,$\theta_t$表示第t个迭代步骤时模型的参数,$\alpha$表示学习率,$J(\theta_t)$表示损失函数。$\nabla J(\theta_t)$表示损失函数$J(\theta_t)$对参数$\theta_t$的梯度。在每个迭代步骤中,根据当前梯度和学习率来更新参数。

以下是使用SGD优化器的示例代码:

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
model = nn.Linear(10, 1)
# 定义损失函数
criterion = nn.MSELoss()
# 定义优化器,学习率为0.01
optimizer = optim.SGD(model.parameters(), lr=0.01)

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 训练过程
for epoch in range(100):
 # 前向传播
 outputs = model(inputs)
 # 计算损失
 loss = criterion(outputs, targets)
 # 梯度清零
 optimizer.zero_grad()
 # 反向传播
 loss.backward()
 # 更新参数
 optimizer.step()

在上述代码中,我们首先定义了一个线性模型、一个均方误差损失函数和一个SGD优化器。然后使用随机产生的输入数据和目标数据进行训练。在每个迭代步骤中,计算模型的输出和损失值,清零梯度,进行反向传播,并使用优化器更新参数。

Adam

Adam是一种自适应学习率的优化器,它综合了Momentum和RMSProp算法的优点。其更新参数的过程可以通过以下公式表示:

$$
m_t = \beta_1 \cdot m_{t-1} + (1 – \beta_1) \cdot g_t \
v_t = \beta_2 \cdot v_{t-1} + (1 – \beta_2) \cdot g_t^2 \
\hat{m}t = \frac{m_t}{1 – \beta_1^t} \
\hat{v}_t = \frac{v_t}{1 – \beta_2^t} \
\theta
{t+1} = \theta_t – \frac{\alpha \cdot \hat{m}_t}{\sqrt{\hat{v}_t} + \epsilon}
$$

其中,$\beta_1$和$\beta_2$是可以配置的超参数,分别用于控制梯度的一阶和二阶矩估计的衰减率。$m_t$和$v_t$分别表示梯度的一阶和二阶矩估计,$\hat{m}_t$和$\hat{v}_t$表示偏差修正的一阶和二阶矩估计,$\alpha$表示学习率,$\epsilon$是一个小值,用于避免除以0的情况。

以下是使用Adam优化器的示例代码:

import torch
import torch.nn as nn
import torch.optim as optim

# 定义模型
model = nn.Linear(10, 1)
# 定义损失函数
criterion = nn.MSELoss()
# 定义优化器,学习率为0.001
optimizer = optim.Adam(model.parameters(), lr=0.001)

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 训练过程
for epoch in range(100):
 # 前向传播
 outputs = model(inputs)
 # 计算损失
 loss = criterion(outputs, targets)
 # 梯度清零
 optimizer.zero_grad()
 # 反向传播
 loss.backward()
 # 更新参数
 optimizer.step()

在上述代码中,我们首先定义了一个线性模型、一个均方误差损失函数和一个Adam优化器。然后使用随机产生的输入数据和目标数据进行训练。在每个迭代步骤中,计算模型的输出和损失值,清零梯度,进行反向传播,并使用优化器更新参数。

PyTorch提供的常见损失函数

PyTorch提供了许多常见的损失函数,包括均方误差(MSE)、交叉熵损失、二分类交叉熵损失等。下面将对每个损失函数进行详细介绍。

均方误差(MSE)

均方误差是最常见的回归问题损失函数,用于衡量模型的输出与目标值之间的差距。其计算方式为将模型输出与目标值之差的平方求和,并除以样本数量。具体计算公式如下:

$$
MSE = \frac{1}{N} \sum_{i=1}^{N} (y_i – \hat{y}_i)^2
$$

其中,$N$为样本数量,$y_i$为第i个样本的目标值,$\hat{y}_i$为第i个样本的模型预测值。

以下是使用均方误差损失函数的示例代码:

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 1)
# 定义均方误差损失函数
criterion = nn.MSELoss()

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randn(100, 1)

# 前向传播
outputs = model(inputs)
# 计算均方误差损失
loss = criterion(outputs, targets)

在上述代码中,我们首先定义了一个线性模型和一个均方误差损失函数。然后使用随机产生的输入数据和目标数据进行前向传播,并计算均方误差损失。

交叉熵损失

交叉熵损失是用于分类问题的常见损失函数,尤其适用于多分类问题。其计算方式为将模型输出与目标概率分布之间的差距进行交叉熵计算,并求平均。具体计算公式如下:

$$
CrossEntropyLoss = -\frac{1}{N} \sum_{i=1}^{N} \sum_{j=1}^{C} y_{ij} \log(\hat{y}_{ij})
$$

其中,$N$为样本数量,$C$为类别数量,$y_{ij}$表示样本i的目标概率分布中第j个类别的概率,$\hat{y}_{ij}$为模型对样本i的输出中第j个类别的概率的预测。

以下是使用交叉熵损失函数的示例代码:

import torch
import torch.nn as nn

# 定义模型
model = nn.Linear(10, 3)
# 定义交叉熵损失函数
criterion = nn.CrossEntropyLoss()

# 输入数据
inputs = torch.randn(100, 10)
targets = torch.randint(3, (100,))

# 前向传播
outputs = model(inputs)
# 计算交叉熵损失
loss = criterion(outputs, targets)

在上述代码中,我们首先定义了一个线性模型和一个交叉熵损失函数。然后使用随机产生的输入数据和目标数据进行前向传播,并计算交叉熵损失。

结论

本文介绍了PyTorch提供的一些常见优化器和损失函数,包括随机梯度下降(SGD)、Adam、Adagrad等优化器,以及均方误差(MSE)、交叉熵损失等损失函数。对于每个优化器和损失函数,我们介绍了其算法原理、公式推导、计算步骤和使用示例代码。这些优化器和损失函数在深度学习任务中具有重要作用,可以帮助我们更好地训练和评估模型。

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/823849/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球