深度学习中分类任务的损失函数详解

2023年7月1日下午6:33 • 人工智能 • 阅读 75

1. 多分类任务损失函数：

tf.nn.softmax_cross_entropy_with_logits

tf.nn.sparse_softmax_cross_entropy_with_logits

2. 交叉熵损失函数的原理

3. softmax原理

多分类任务损失函数：

多分类问题一般用softmax作为神经网络的最后一层，然后计算交叉熵损失。

*tf.nn.softmax_cross_entropy_with_logits

TensorFlow中的 tf.nn.softmax_cross_entropy_with_logits函数可以直接计算多分类损失。

tf.nn.softmax_cross_entropy_with_logits(
    labels,
    logits,
    axis=-1,
    name=None
)

输入 labels是标签向量，形状为[batch_size, num_classes]，每一行的labels[i]必须符合有效的概率分布。

输入 logits是神经网络最后一层的输出，形状与labels相同。注意logits不需要在神经网络最后一层通过softmax函数，因为tf.nn.softmax_cross_entropy_with_logits函数已经把softmax和交叉熵结合在一起了。案例如下：

logits = [[4.0, 2.0, 1.0], [0.0, 5.0, 1.0]]
labels = [[1.0, 0.0, 0.0], [0.0, 0.8, 0.2]]
tf.nn.softmax_cross_entropy_with_logits(labels=labels, logits=logits)

输出是一组包含softmax交叉熵损失的张量。其类型与logits相同，形状与labels相同。

TensorFlow官方文档对于softmax_cross_entropy_with_logits交叉熵损失的函数的解释是：

Measures the probability error in discrete classification tasks in which the classes are mutually exclusive (each entry is in exactly one class). For example, each CIFAR-10 image is labeled with one and only one label: an image can be a dog or a truck, but not both.

此外，还有tf.nn.sparse_softmax_cross_entropy_with_logits，它们的区别仅仅在于labels，softmax_cross_entropy_with_logits是one-hot输入，而sparse_softmax_cross_entropy_with_logits的label是是int型，输入shape为[batch_size]。

*tf.nn.sparse_softmax_cross_entropy_with_logits

这个和上面那个损失函数类似，区别在于输入的labels形式不一样，上面的labels需要是one-hot输入，而sparse_softmax_cross_entropy_with_logits的label是int型（labels的 index），输入shape为[batch_size]。

tf.nn.sparse_softmax_cross_entropy_with_logits(
&#xA0; &#xA0; labels, logits, name=None
)

案例如下：

logits = tf.constant([[2., -5., .5, -.1],
                      [0., 0., 1.9, 1.4],
                      [-100., 100., -100., -100.]])
labels = tf.constant([0, 3, 1])
tf.nn.sparse_softmax_cross_entropy_with_logits(
    labels=labels, logits=logits).numpy()

交叉熵损失函数的原理

交叉熵是信息论领域的一种度量方法，它建立在熵的基础上，通常计算两种概率分布之间的差异。

交叉熵损失函数经常用于分类问题中，特别是神经网络分类问题。交叉熵是用来描述两个分布的距离的，神经网络训练的目的就是使 g(x) 逼近 p(x)。

相对于sigmoid求损失函数，在梯度计算层面上，交叉熵对参数的偏导不含对sigmoid函数的求导，而均方误差(MSE)等其他则含有sigmoid函数的偏导项。Sigmoid的值很小或者很大时梯度几乎为零，这会使得梯度下降算法无法取得有效进展，交叉熵则避免了这一问题。

为了弥补 sigmoid 型函数的导数形式易发生饱和（saturate，梯度更新的较慢）的缺陷，可以引入Softmax作为预测结果，计算交叉熵损失。由于交叉熵涉及到计算每个类别的概率，所以在神经网络中，交叉熵与softmax函数紧密相关。

在 二分类的情况下，模型最终预测的结果只有2类，对于每个类别我们预测的概率为p和1-p。

此时Binary Cross Entropy为：

其中：

y : 样本标签，正样本标签为1，负样本标签为0
p : 预测为正样本的概率

而本问题题主关心的是多分类，多分类的交叉熵损失可表示为：

其中：

K是种类数量
y是标签，也就是如果类别是i，则，否则等于0
p是神经网络的输出，也就是指类别是i的概率。这个输出值就是用上文提到的softmax计算得来的。
softmax原理

Softmax函数的作用就是将每个类别所对应的输出分量归一化，使各个分量的和为1。可以理解为，能将任意是输入值转化为概率。Softmax主要用于多分类任务的激活函数，一般用在神经网络的输出端。

Softmax的计算步骤如下：

算出求出e关于输入向量的每个元素的的幂；
将所有的幂相加，得到分母
每一个幂，作为相应位置输出结果的分子
输出的概率=分子/分母

计算公式为：

看一个简单是例子，比如输入向量为[-1,0,3,5]，softmax的计算结果如下表。

Original: https://blog.csdn.net/sjyttkl/article/details/117381323
Author: Terry_dong
Title: 深度学习中分类任务的损失函数详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/663833/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

工程 (六) ——PointNet点云分类

目录一、基本原理二、工程目录三、代码解析 3.1 分类 3.2 语义分割四、测试运行 4.1 分类 4.2 语义分割一、基本原理相比与pointnet，pointn…

人工智能 2023年7月2日
0075
Qt编译OpenCv详细记录（MinGW-32编译）

Qt编译OpenCv详细记录（MinGW-32编译32位OpenCV）一、环境：Qt5.14.1 OpenCv 4.54 * 1、安装Qt 2、安装Cmake 二、编译流程 * …

人工智能 2023年7月20日
0077
Transformers实战——使用本地数据进行AclImdb情感分类

AclImdb – v1 Dataset 是用于二进制情绪分类的大型电影评论数据集，其涵盖比基准数据集更多的数据，其中有 25,000 条电影评论用于训练，25,000 条用于测试…

人工智能 2023年5月28日
0074
【数学建模】-多元线性回归分析

文章目录 * – 回归的思想 – + 回归分析：研究X和Y之间相关性的分析。 + * 相关性 * 因变量Y * 自变量X – 回归分析的使命 &…

人工智能 2023年6月17日
00117
转转前端周刊第五期

本刊意在整理业界精华文章给大家，期望大家一起打开视野浏览器提供了 5 种 Observer 来监听这些变动：MutationObserver、IntersectionObserv…

人工智能 2023年7月17日
0080
Neo4j批量导入大量csv数据

背景：本人在建立知识图谱的过程中需要导入23w条节点之间的关系，把csv放到import下之后就开始导入，导了一晚上没导完。文章目录 Neo4j的操作是一次性的一、找到解决方法…

人工智能 2023年6月1日
00166
《神经网络与深度学习》算法伪代码汇总

目录第三章线性模型算法3.1 两类感知器的参数学习算法算法3.2 一种改进的平均感知器参数学习算法算法3.3 广义感知器参数学习算法第四章前反馈神经网络算法4.1 …

人工智能 2023年6月24日
0062
使用SimpleITK进行3D图像连通域分析

一、简介本文叙述了使用SimpleITK进行3D医疗图像连通域分析的方法。（相邻的像素值视为同一个连通域，不区分像素值）非医疗图像需要先封装为SimpleITK.Image，或…

人工智能 2023年6月18日
00107
进程间通信–共享内存篇

文章目录共享内存的概念共享内存使用须知 * 创建共享内存共享内存的映射与链接共享内存的映射取消共享内存的删除共享内存实现进程通信总结共享内存的概念共享内存字面理解…

人工智能 2023年7月30日
0062
卷积神经网络图像识别,卷积神经网络图像处理

街道垃圾识别系统的原理是什么？不久前上海关于垃圾分类的出台政策大家应该还记得，做好垃圾分类成为了许多人的难题。其实，随着人工智能技术的突飞猛进，自动分类垃圾桶已经出现了。目前有…

人工智能 2023年6月20日
0099
YOLOV5在win10上的环境配置及训练和检测

记录半年前的工作。由于想使用yolov5进行目标检测，输出相应的坐标，Linux系统不熟悉，服务器用的不方便，于是配置win10系统下的yolov5虚拟环境，利用pycharm来…

人工智能 2023年7月9日
0077
智能车图像处理去畸变+逆透视教程

逆透视请参考：智能车逆透视教程(含上位机、源码)_LoseHu的博客-CSDN博客去畸变请参考：智能车去畸变教程(含上位机、源码)_LoseHu的博客-CSDN博客逆透视+…

人工智能 2023年6月17日
0079
MT5ForConditionalGeneration生成模型的推理细节，源码阅读

T5是Google提出的Seq2Seq结构的预训练语言模型，一经提出便登上了GLUE、SuperGLUE等各大NLP榜单第一，而它的升级版本mT5因为用了多国语言语料，在中文任务上…

人工智能 2023年5月28日
0091
使用交叉熵（CrossEntropyLoss）做多分类问题最后一层是否使用softmax

最近在一个自己的数据集上做多分类问题，使用的是CrossEntropyLoss作为loss，但是训练效果一直不好。就疯狂找问题，快二十天了，未果。昨天在github上找了一段代码，…

人工智能 2023年7月2日
00110
全网顶级，谷歌98k架构师带你手撕spring 高级源码笔记，征服面试官的首选

写在前面我们大多数 Java 程序员的日常工作基本都是在做业务开发，俗称 crudboy。作为 crudboy 的你有没有这些烦恼呢？随着业务的迭代，新功能的加入，代码变得越…

人工智能 2023年6月26日
00101
解决pytorch中Dataloader读取数据太慢的问题

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档最近在使用pytorch框架进行模型训练时遇到一个性能问题，即数据读取的速度远远大于GPU训练的速度，导致整个训练…

人工智能 2023年6月17日
0072

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

深度学习中分类任务的损失函数详解

大家都在看