softmax函数用于多分类问题的解读

2023年7月1日下午8:44 • 人工智能 • 阅读 96

在多分类问题中，我们常常使用softmax作为输出层函数。下面来介绍softmax函数。

1 softmax数学形式：

通过数学表达式，我们可以看到，softmax函数将向量映射为一个概率分布（0，1）对于n维向量最后映射为n维的概率分布。

σ ( x ) i = e x p ( x i ) ∑ j = 1 n e x p ( x j ) \sigma(x)i=\frac{exp(x_i)}{\sum{j=1}^{n}exp(x_j)}σ(x )i =∑j =1 n e x p (x j )e x p (x i )

在n分类问题中，神经网络的输出元有n个，将n个输出值作为softmax的输入，即可以得到n个概率分布，对应位置就是第n类的预测概率。可以看下例讲解：

; 2 损失函数——为什么是交叉熵/对数损失函数？

交叉熵最早起源于信息论，1948 年，香农提出了”信息熵”(shāng) 的概念，才解决了对信息的量化度量问题。关于信息论和交叉熵的解读，可以看我这篇文章从信息熵到交叉熵

根据交叉熵的公式，我们可以衡量两个概率分布之间的相似度.。因此在多分类问题中，使用交叉熵函数可以刻画输出概率和实际标签的相似度。
H ( p , q ) = − ∑ p ( x ) l o g ( q ( x ) ) H(p,q)=-\sum p(x)log(q(x))H (p ,q )=−∑p (x )l o g (q (x ))

所以在多分类问题中，我们通过softmax函数得到一个n维概率分布( p 1 , p 2 , . . . , p n ) (p_1,p_2,…,p_n)(p 1 ,p 2 ,…,p n ),对于实际的标签向量y = ( 0 , 0 , . . . , 1 , 0 ) y=(0,0,…,1,0)y =(0 ,0 ,…,1 ,0 )，使用交叉熵损失函数就可以得到我们的输出层的目标函数。
L o s s C r o s s E n t r o p y = − ∑ i y i l n ( σ ( x ) i ) Loss_{Cross Entropy} = -\sum _iy_iln(\sigma(x)_i)L o s s C r o s s E n t r o p y =−i ∑y i l n (σ(x )i )

实际中，由于我们的标签是类别，只有一个维度是1，所以上面的求和符号可以省去，改写为：

L o s s = − l n ( σ ( x ) k ） Loss = -ln(\sigma(x)_k）L o s s =−l n (σ(x )k ）

通过梯度下降反向传播。即完成整个神经网络的参数更新。
∂ Loss ∂ x j = ∂ ( − ln ⁡ ( σ ( x ) k ) ) ∂ σ ( x ) k ⋅ ∂ σ ( x ) k ∂ x j = − 1 σ ( x ) k ⋅ ∂ σ ( x ) k ∂ x j = { σ ( x ) j − 1 , j = k σ ( x ) j , j ≠ k \frac{\partial \text { Loss }}{\partial x_{j}}=\frac{\partial\left(-\ln \left(\sigma(\boldsymbol{x}){k}\right)\right)}{\partial \sigma(\boldsymbol{x}){k}} \cdot \frac{\partial \sigma(\boldsymbol{x}){k}}{\partial x{j}}=-\frac{1}{\sigma(\boldsymbol{x}){k}} \cdot \frac{\partial \sigma(\boldsymbol{x}){k}}{\partial x_{j}}=\left{\begin{array}{l} \sigma(\boldsymbol{x}){j}-1, j=k \ \sigma(\boldsymbol{x}){j}, j \neq k \end{array}\right.∂x j ∂Loss =∂σ(x )k ∂(−ln (σ(x )k ))⋅∂x j ∂σ(x )k =−σ(x )k 1 ⋅∂x j ∂σ(x )k ={σ(x )j −1 ,j =k σ(x )j ,j =k

Softmax+Cross Entropy的结合不仅在数学进行了完美的定义，而且整个表达式十分简洁。

3 举个例子

对于n=3，期望输出p=（1，0，0），实际输出q1=(0.5,0.2,0.3),q2=(0.8,0.1,0.1)

H ( p , q 1 ) = − ( 1 × log ⁡ 0.5 + 0 × log ⁡ 0.2 + 0 × log ⁡ 0.3 ) H ( p , q 1 ) = 0.3 H ( p , q 2 ) = − ( 1 × log ⁡ 0.8 + 0 × log ⁡ 0.1 + 0 × log ⁡ 0.1 ) H ( p , q 2 ) = 0.1 \begin{aligned} &H\left(p, q_{1}\right)=-\left(1 \times \log ^{0.5}+0 \times \log ^{0.2}+0 \times \log ^{0.3}\right) \ &H\left(p, q_{1}\right)=0.3 \ &H\left(p, q_{2}\right)=-\left(1 \times \log ^{0.8}+0 \times \log ^{0.1}+0 \times \log ^{0.1}\right) \ &H\left(p, q_{2}\right)=0.1 \end{aligned}H (p ,q 1 )=−(1 ×lo g 0 .5 +0 ×lo g 0 .2 +0 ×lo g 0 .3 )H (p ,q 1 )=0 .3 H (p ,q 2 )=−(1 ×lo g 0 .8 +0 ×lo g 0 .1 +0 ×lo g 0 .1 )H (p ,q 2 )=0 .1
p2和实际值q更接近。
对于交叉熵公式，还可以改写成以下形式：

H ( p , q ) = − ∑ x ( p ( x ) log ⁡ q ( x ) + ( 1 − p ( x ) ) log ⁡ ( 1 − q ( x ) ) ) H(p, q)=-\sum_{x}(p(x) \log q(x)+(1-p(x)) \log (1-q(x)))H (p ,q )=−x ∑(p (x )lo g q (x )+(1 −p (x ))lo g (1 −q (x )))
其结果为:
H ( p , q 1 ) = − ( 1 × log ⁡ 0.5 + 0 × log ⁡ 0.2 + 0 × log ⁡ 0.2 + 0 × log ⁡ 0.5 + 1 × log ⁡ 0.8 + 1 × log ⁡ 0.7 ) H ( p , q 1 ) = 0.55 H ( p , q 2 ) = − ( 1 × log ⁡ 0.8 + 0 × log ⁡ 0.1 + 0 × log ⁡ 0.1 + 0 × log ⁡ 0.2 + 1 × log ⁡ 0.9 + 1 × log ⁡ 0.9 ) H ( p , q 2 ) = 0.19 \begin{aligned} &H\left(p, q_{1}\right)=-\left(1 \times \log ^{0.5}+0 \times \log ^{0.2}+0 \times \log ^{0.2}+0 \times \log ^{0.5}+1 \times \log ^{0.8}+1 \times \log ^{0.7}\right) \ &H\left(p, q_{1}\right)=0.55 \ &H\left(p, q_{2}\right)=-\left(1 \times \log ^{0.8}+0 \times \log ^{0.1}+0 \times \log ^{0.1}+0 \times \log ^{0.2}+1 \times \log ^{0.9}+1 \times \log ^{0.9}\right) \ &H\left(p, q_{2}\right)=0.19 \end{aligned}H (p ,q 1 )=−(1 ×lo g 0 .5 +0 ×lo g 0 .2 +0 ×lo g 0 .2 +0 ×lo g 0 .5 +1 ×lo g 0 .8 +1 ×lo g 0 .7 )H (p ,q 1 )=0 .5 5 H (p ,q 2 )=−(1 ×lo g 0 .8 +0 ×lo g 0 .1 +0 ×lo g 0 .1 +0 ×lo g 0 .2 +1 ×lo g 0 .9 +1 ×lo g 0 .9 )H (p ,q 2 )=0 .1 9

以上的所有说明针对的都是单个样例的情况，而在实际的使用训练过程中，数据往往是组合成为一个batch来使用，所以对用的神经网络的输出应该是一个m*n的二维矩阵，其中m为batch的个数，n为分类数目，而对应的Label也是一个二维矩阵，还是拿上面的数据，组合成一个batch=2的矩阵：

q = ( 0.5 0.2 0.3 0.8 0.1 0.1 ) p = ( 1 0 0 1 0 0 ) \begin{aligned} &q=\left(\begin{array}{lll} 0.5 & 0.2 & 0.3 \ 0.8 & 0.1 & 0.1 \end{array}\right) \ &p=\left(\begin{array}{lll} 1 & 0 & 0 \ 1 & 0 & 0 \end{array}\right) \end{aligned}q =(0 .5 0 .8 0 .2 0 .1 0 .3 0 .1 )p =(1 1 0 0 0 0 )
所以交叉樀的结果应该是一个列向量 (根据第一种方法)：
H ( p , q ) = ( 0.3 0.1 ) H(p, q)=\left(\begin{array}{l} 0.3 \ 0.1 \end{array}\right)H (p ,q )=(0 .3 0 .1 )
而对于一个 batch，最后取平均为 0.2 0.2 0 .2 。

Original: https://blog.csdn.net/weixin_42327752/article/details/122333995
Author: Weiyaner
Title: softmax函数用于多分类问题的解读

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/664031/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

话筒增益_一篇文章教会您KORG Pa编曲键盘话筒/吉他效果器基础设置

热门活动这篇文章包含了一个非常有用的中文描述全球麦克风设置页面，请务必 [En] This article contains a very useful description …

人工智能 2023年5月27日
00169
COCO数据集训练TPH-YoloV5

设备：rtx 3060 环境要求：torch >= 1.8.1 其他环境按照源代码的readme安装即可 github地址：本文用COCO数据集来进行训练，TPH-YOLO…

人工智能 2023年6月17日
0068
变量之间的相关性：协方差、相关系数

协方差方差和标准差衡量的是一个变量（一组数据）的离散程度，也就是变量和均值之间的偏离程度。协方差衡量的是两个变量之间的相关性，如：正相关：两个变量具有相同的变化趋势（也称同方…

人工智能 2023年6月18日
0089
如何解决kaldi的依赖库mkl安装失败的问题

最近在学习如何使用kaldi进行语音识别。按照进程进行安装部署时发现 Intel MKL库总是失败。通过搜索大量的资料，但都发现不太适用。现在将失败的症状和解决方法分享一下，希望…

人工智能 2023年5月25日
0076
pandas中合并数据集

数据集的合并🔍 1、pandas.merge() 对于数据库风格的DataFrame进行联合语法👇： pandas.merge(left, right, how=’i…

人工智能 2023年7月7日
0082
【分数0.864】千言数据集：文本相似度

文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向，同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用，具有很高的商业价值。目前学术界…

人工智能 2023年5月28日
0087
2022-2028全球与中国语音遥控器市场现状及未来发展趋势

2021年全球语音遥控器市场销售额达到了亿美元，预计2028年将达到亿美元，年复合增长率（CAGR）为 %（2022-2028）。地区层面来看，中国市场在过去几年变化较快，20…

人工智能 2023年5月25日
0068
LeetCode — 1436. Destination City 解题报告

You are given the array paths, where paths[i] = [cityAi, cityBi] means there exists a dire…

人工智能 2023年6月28日
0087
常用Doc命令

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月26日
00131
都要2022年了，你还在纠结pytorch还是tensorflow？

PyTorch 和 TensorFlow近几年一直是深度学习领域的两大热门框架。PyTorch 和 TensorFlow都拥有丰富的API、广阔的用户群体，目前也都广泛用于学术研究…

人工智能 2023年5月25日
00105
Pandas读取数据

目录一、pandas读取csv文件这里我们可以指定name参数，来给我们的列表的不同列命名指定我们的行索引将指定的数据置空保存我们的CSV数据二、Python读取JSO…

人工智能 2023年6月15日
0067
windows10安装TensorFlow-gpu环境

Linux CPU 版本Python 版本编译器构建工具tensorflow-2.6.03.6-3.9GCC 7.3.1Bazel 3.7.2tensorflow-2.5.03.6…

人工智能 2023年5月25日
0065
制作自己的 tusimple 格式数据集

tusimple 格式数据集制作与标注小结最近在看 LaneNet ，然后参考网上的博客记录一下自己制作个人 tusimple 格式数据集的过程。 1.前期准备工具： labe…

人工智能 2023年5月25日
00110
带图讲解，深度学习YOLO里面的anchors的进阶理解

如果有了解过yolo网络，那肯定也听说过anchors，当然anchors这个概念布置在YOLO里面才有，在其他的目标检测中也存在anchors这个概念。对于anchors计算的一…

人工智能 2023年6月16日
00113
图像处理5-图片加噪

图像处理系列：图像处理1-经典空间域增强——灰度映射图像处理2-经典空间域增强——直方图均衡化图像处理3-经典空间域增强——空域滤波图像处理4-图像的傅里叶变换…

人工智能 2023年6月17日
00114
五子棋——人机博弈（Java实现）

1引言本文档是考试系统项目的内容汇总，其主要内容包括：项目说明需求分析项目设计编码与实现测试说明课程设计体会与总结 2项目说明 2.1项目要求五子棋是全国智力运动会…

人工智能 2023年7月27日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

softmax函数用于多分类问题的解读

大家都在看