PyTorch中常用的损失函数有哪些？如何选择合适的损失函数

2024年1月3日上午11:35 • 人工智能 • 阅读 30

问题背景

在机器学习和深度学习任务中，损失函数（loss function）是一种用于衡量模型预测结果与真实标签之间差异的函数。在PyTorch中，常用的损失函数有多种选择。本文将介绍一些常见的损失函数，并探讨如何选择合适的损失函数来优化模型。

介绍常用的损失函数

PyTorch中常见的损失函数包括：

均方误差损失（Mean Squared Error Loss, MSE Loss）：用于回归问题，通过计算模型预测值与真实值之间的平方差来衡量差异。
交叉熵损失（Cross Entropy Loss）：用于分类问题，通过计算预测概率分布与真实标签之间的交叉熵来衡量差异。
二分类交叉熵损失（Binary Cross Entropy Loss）：是交叉熵损失的特殊情况，用于二分类问题。
KL散度损失（Kullback-Leibler Divergence Loss）：用于衡量两个概率分布之间的差异。
余弦相似度损失（Cosine Similarity Loss）：用于衡量两个向量之间的余弦相似度，并将其作为损失进行优化。
指数损失（Exponential Loss）：用于增大分类错误的惩罚，对分类问题中的错误结果给予更高的权重。
损失平面损失（Hinge Embedding Loss）：用于支持向量机（SVM）模型，通过计算预测结果与真实标签之间差异的Hinge损失来衡量。

如何选择合适的损失函数

选择合适的损失函数是深度学习中关键的决策之一。以下是一些建议，可以帮助选择合适的损失函数：

问题类型：根据问题类型选择损失函数。对于回归问题，通常使用均方误差损失函数。对于分类问题，可以使用交叉熵损失函数或二分类交叉熵损失函数。
目标函数：考虑模型的最终目标，并选择能够最大化目标函数的损失函数。例如，在二分类问题中，如果更关注正例的分类准确性，可以选择二分类交叉熵损失函数。
数据分布：根据数据分布的特点选择损失函数。例如，如果数据存在较大的噪声或离群值，可以选择鲁棒性较强的损失函数。
模型输出：根据模型的输出类型选择损失函数。例如，对于输出为概率分布的模型，可以选择交叉熵损失函数。
损失函数的特性：了解损失函数的特性，并根据需求进行选择。例如，指数损失函数可以增大分类错误的惩罚，适用于需要更重视错误分类的问题。

尽管以上建议可以作为指导，但最好的方法是尝试不同的损失函数并比较它们在验证集上的性能。根据模型的性能和优化结果，选择表现最优的损失函数。

损失函数示例：交叉熵损失

接下来，我们将以交叉熵损失函数为例，展示如何使用PyTorch实现和使用损失函数。

算法原理和公式推导

交叉熵损失函数是计算预测概率分布与真实标签之间的交叉熵的一种损失函数。具体地，对于一个多分类问题，假设模型的预测是一个由Softmax函数输出的概率分布向量，用$\hat{y}$表示预测概率向量，$y$表示真实标签向量，则交叉熵损失函数定义为：

$$
CE(y, \hat{y}) = -\sum_{i=1}^{n} y_i \log(\hat{y}_i)
$$

其中$n$是分类的数量。

计算步骤和代码示例

下面是一个使用交叉熵损失函数进行训练并计算损失的示例代码：

import torch
import torch.nn as nn

# 创建数据集
X_train = torch.Tensor([[1.0, 2.0], [2.0, 1.0], [3.0, 2.0], [4.0, 3.0]])
y_train = torch.LongTensor([0, 1, 2, 1])

# 创建模型
input_size = 2
output_size = 3
model = nn.Linear(input_size, output_size)
criterion = nn.CrossEntropyLoss() # 使用交叉熵损失函数

# 定义优化器
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)

# 训练模型
num_epochs = 1000
for epoch in range(num_epochs):
 # 前向传播
 outputs = model(X_train)
 loss = criterion(outputs, y_train)

 # 反向传播和优化
 optimizer.zero_grad()
 loss.backward()
 optimizer.step()

 if (epoch+1) % 100 == 0:
 print(f'Epoch {epoch+1}/{num_epochs}, Loss: {loss.item():.4f}')

# 验证模型
X_test = torch.Tensor([[2.0, 1.0]])
predicted = model(X_test)
_, predicted_label = torch.max(predicted, 1)
print(f'Predicted Label: {predicted_label.item()}')

在上面的示例代码中，我们首先创建了一个简单的数据集（包括输入特征X_train和标签y_train），然后定义了一个具有线性层的模型model。我们使用了交叉熵损失函数nn.CrossEntropyLoss()作为优化目标，并使用随机梯度下降（SGD）作为优化算法。在训练过程中，我们计算了损失，并根据梯度更新了模型的参数。最后，我们使用训练好的模型进行预测，并打印出预测结果。

代码细节解释

下面对上述示例代码的几个重要部分进行解释：

nn.Linear(input_size, output_size)：这一行代码定义了一个线性层模型，其中input_size是输入特征的维度，output_size是输出的维度。
nn.CrossEntropyLoss()：这一行代码创建了一个交叉熵损失函数的实例，用于计算模型输出和真实标签之间的交叉熵损失。
optimizer = torch.optim.SGD(model.parameters(), lr=0.01)：这一行代码定义了一个随机梯度下降（SGD）优化器，并将模型的参数和学习率作为参数传入。
outputs = model(X_train)：这一行代码将输入数据X_train传给模型，获取模型的输出结果。
loss = criterion(outputs, y_train)：这一行代码计算模型输出和真实标签之间的交叉熵损失。
optimizer.zero_grad()：这一行代码将优化器的梯度缓存清零，防止梯度累积。
loss.backward()：这一行代码进行反向传播，计算损失函数关于模型参数的梯度。
optimizer.step()：这一行代码根据梯度更新模型的参数。
predicted = model(X_test)：这一行代码使用训练好的模型对新的输入数据X_test进行预测。
_, predicted_label = torch.max(predicted, 1)：这一行代码从预测结果中选择概率最高的类别作为预测标签。

以上是关于PyTorch中常用的损失函数及如何选择合适损失函数的详细解答，以及使用交叉熵损失函数的代码实例和解释。希望能对你有所帮助！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/823524/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python量化分析数据导入02-DataFrame

本节主要介绍使用DataFrame进行数据导: 知识点补短板： pandas.read_csv(filepath_or_buffer, sep=’, ‘, delimiter=No…

人工智能 2023年7月7日
00104
数据库系统概述

基本概念：数据：描述事物的符号记录数据库：数据库是长期储存在计算机内、有组织的、可共享的大量数据的集合 DBMS: 数据库系统：数据库系统是由数据库、数据库管理系统（及其应用开…

人工智能 2023年6月1日
0068
基于Windows环境下CPU和GPU版本Tensorflow详细安装过程

基于Windows环境下CPU和GPU版本Tensorflow详细安装过程一、Tensorflow简介 TensorFlow 是一个开源的、基于 Python 的机器学习框架，它…

人工智能 2023年5月24日
0074
transformer在图像分类上的应用以及pytorch代码实现

文章目录 1.对transformers的简单介绍 * 1.1序列数据的介绍（seq2seq） 1.2self-Attention 1.3 transformer的完整结构 2.t…

人工智能 2023年6月17日
0054
样例：语义分割指标计算：GA,OA,mAcc,mIoU,IoU

举个例子，假设得到混淆矩阵如下：[ 真实标签真实标签真实标签真实标签真实标签 0 1 2 3 4 预测标签 0 16 0 1 1 4 预…

人工智能 2023年7月14日
00175
U-Net详解

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、U-Net产生的原因以及简单介绍二、U-Net网络结构分析 1…

人工智能 2023年6月16日
00109
OpenCV C++案例实战二十四《多目标匹配》

OpenCV C++案例实战二十四《多目标匹配》前言一、图像预处理二、单目标匹配三、多目标匹配 * 1、效果显示四、结果显示 * 1、效果显示五、源码总结前言 …

人工智能 2023年7月19日
0060
ABBYY FastML：一种用于大型文档流处理的客户端机器学习新方案。

[TencentCloudSDKException] code:FailedOperation.ServiceIsolate message:service is stopped …

人工智能 2023年6月2日
0076
【2022】保姆级Anaconda安装与换国内源教程

一、Anaconda的安装由于Anaconda官网在境外，为了提升下载速度，我们选择从北京外国语大学镜像站下载Anaconda的安装包。截止到写作时，Anaconda3最新版本…

人工智能 2023年7月25日
0047
YOLOv6：又快又准的目标检测框架开源啦

近日，美团视觉智能部研发了一款致力于工业应用的目标检测框架 YOLOv6，能够同时专注于检测的精度和推理效率。在研发过程中，视觉智能部不断进行了探索和优化，同时吸取借鉴了学术界和工…

人工智能 2023年6月23日
0081
优秀的 Verilog/FPGA开源项目介绍（二十二）- 深度神经网络 (DNN)

优秀的 Verilog/FPGA开源项目介绍（二十二）- 深度神经网络 (DNN) 介绍深度神经网络 (DNN) 是一种人工神经网络(ANN)，在输入层和输出层之间具有多层。有不…

人工智能 2023年7月14日
0078
基于朴素贝叶斯/逻辑回归的垃圾邮件文本分类

目录一、邮件数据集二、文本分类三、朴素贝叶斯 1、贝叶斯公式 2、应用举例 3、用朴素贝叶斯进行文本分类四、逻辑回归五、代码 1、导入程序运行必需的库 2、获取邮件内容以…

人工智能 2023年5月30日
00101
基于OpenCV的简易实时手势识别（含代码）

基于OpenCV的简易实时手势识别 1.基本信息介绍 * 1.1实验步骤 1.2效果展示 2.肤色检测+二值化+开运算+高斯模糊 * 2.1 flip()函数原型 2.2cvtCo…

人工智能 2023年5月28日
0071
10.1 Python图像处理之边缘算子-Sobel算子、Roberts算子、拉普拉斯算子、Canny算子、Prewitt算子、高斯拉普拉斯算子

10.1 Python图像处理之边缘算子-Sobel算子、Roberts算子、拉普拉斯算子、Canny算子、Prewitt算子、高斯拉普拉斯算子文章目录 10.1 Python图…

人工智能 2023年6月17日
00157
DBNet实战：详解DBNet训练与测试（pytorch）

论文连接：https://arxiv.org/pdf/1911.08947.pdf github链接：github.com 网络结构首先，图像输入特征提取主干，提取特征；其次，…

人工智能 2023年6月24日
0074
3. 梯度提升决策树（GBDT）详解

一、提升树以决策树为基函数的提升方法称为提升树。其中，分类问题采用二叉分类树，回归问题采用二叉回归树。sklearn中的提升树采用的是CART树。模型可以表示为决策树的加法模型：…

人工智能 2023年6月30日
0086

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31