二分类问题中，sigmoid与softmax的区别

2023年7月3日上午7:01 • 人工智能 • 阅读 87

本文摘自知乎答主’初识CV’的回答，连接：二分类问题，应该选择sigmoid还是softmax？ – 知乎

对于二分类问题， 理论上，两者没有任何区别。

由于现在Pytorch，TensorFlow等框架计算矩阵方式问题，两者在反向传播的过程中还是有区别的。实验表明，对于不同的模型，可能sigmoid效果好，也可能softmax效果好。

由公式可见，两个公式可以完全统一，所以理论上来说两者没有区别。

然后分析两者之间的差异（以Pytorch为例）

使用Sigmoid函数时，最后一层全连接层的神经元个数为1，而用softmax函数的时候，最后一层全连接层的神经元个数为2.因为Sigmoid函数只有是目标和不是目标之分，实际上只存在一类目标类，另一个是背景类。而softmax函数将目标分类为两类，所以有两个神经元。这也是导致两者存在差异的主要原因。

Sigmoid函数针对两点分布提出。神经网络的输出经过它的转换，可以将数值压缩到（0,1）之间，得到的结果可以理解成 分类成目标类别的概率P，而不分到该类别的概率为（1-p），这是典型的亮点分布的形式。

softmax函数本身针对多项分布提出，，当类别数是2时，它退化为二项分布。而它和sigmoid函数真正区别就在—分布包含两个分类类别，而亮点分布其实是针对一个类别的概率分布，其对应的那个类别的分布直接由1-p得出。

简单点理解就是， Sigmoid函数，我们可以当作成它是对一个类别的”建模”，将该类别建模完成，另一个相对的类别就直接通过1减去得到。 而softmax函数，是对两个类别建模，同样的，得到两个类别的概率之和是1。

神经网络在做二分类时，使用Softmax还是Sigmoid，做法其实有明显差别。由于Softmax是对两个类别（正反两类，通常定义为0/1的label）建模，所以对于NLP模型而言（比如泛BERT模型），Bert输出层需要通过一个nn.Linear()全连接层压缩至2维，然后接Softmax（Pytorch的做法，就是直接接上torch.nn.CrossEntropyLoss）；而Sigmoid只对一个类别建模（通常就是正确的那个类别），所以Bert输出层需要通过一个nn.Linear() 全连接层压缩至1维，然后接Sigmoid（torch就是接torch.nn.BCEWithLogitsLoss）。

作者：初识CV
链接：https://www.zhihu.com/question/295247085/answer/1778398778
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

Original: https://blog.csdn.net/dingyplucky/article/details/126739820
Author: 是luckyBaby呢
Title: 二分类问题中，sigmoid与softmax的区别

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/667092/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

学习笔记激活函数 ReLU,GELU, SELU …

The purpose of an activation function is to add non-linearity to the neural network. In th…

人工智能 2023年7月13日
0074
Pytorch 报错信息

imageio.imread可以代替 scipy.misc.imread用 pilmode代替 mode用 as_gray代替 flattenpilmode类型： ‘L…

人工智能 2023年7月23日
0044
人工智能、机器学习、深度学习三者关系

目录 1、AI ML DL关系 2、发展历程 2.1、人工智能（ArtificiaI Intelligence） 2.2、机器学习（Machine Learning） 2.3、深度…

人工智能 2023年6月15日
0057
猿创征文｜AnimeGANv2 照片动漫化：如何基于 PyTorch 和神经网络给 GirlFriend 制作漫画风头像？

文章目录前言一、基于 GAN 实现漫画风格实现原理 * 1.1、传统漫画风格迁移工具的不足 1.2、基于生成对抗网络 (GAN) 的漫画风格迁移工具二、AnimeGANv2 …

人工智能 2023年7月13日
0097
（超详细）Ubuntu18.04下安装及卸载opencv+opencv_contrib

为了做毕设，我已经被这个东西折磨了很多天了，现在真的悟了。写下人生的第一篇博客，希望能够帮助大家。说明： 1.本教程适用c++和python环境 2.opencv和opencv_…

人工智能 2023年5月26日
0079
SQL基础学习

1.普通查询 select * from [TName] 查询表【TName】表的所有数据和字段 select Name from [TName] 查询当前表指定的字段 selec…

人工智能 2023年7月31日
0045
deap dataset的不同分类模型的实现（1）

本教程是基于deap数据集的，涵盖了预测脑电信号的大多数传统机器学习算法和深度学习算法。因为有很多关于DEAP数据集的研究，但它们很难比较。因此，作为一个EEG研究者，几乎不可能…

人工智能 2023年7月1日
0086
python 时间序列突变检测_Python Pandas：检测时间序列的频率

也许尝试区分时间索引并使用模式(或最小差异)作为频率. import pandas as pd import numpy as np simulate some data ====…

人工智能 2023年7月8日
0074
演化博弈及Python实现

目录一、写在前面二、演化博弈三、模型构建 3.1博弈收益矩阵 3.2综合期望 3.3复制动态方程 3.4可能的均衡点 3.5局部稳定分析法四、理论分析 4.1演化相位图 4…

人工智能 2023年6月23日
0093
人工智能笔记

第一章：绪论 1956年正式提出人工智能（artificial intelligence, AI）这个术语并把它作为一门新兴科学的名称。 20世纪三大科学技术成就：空间技术、原子能…

人工智能 2023年6月10日
0072
coop：Learning to Prompt for Vision-Language Models

像CLIP这样的大型预训练视觉语言模型在学习表征方面显示出了巨大的潜力，这些表征可在广泛的下游任务中迁移。与传统的基于离散标签的表示学习不同，视觉语言的预训练将图像和文本对齐在一个…

人工智能 2023年5月28日
0072
bert-ini:一种基于bert的实体对齐交互模型

1 前言知识图谱对齐的目标是链接不同知识库中的相等实体。为了更好的利用图结构信息和图元素信息（如名称、描述、属性），大多数工作都是通过实体间的连接关系进行图元素信息的传播。然而，…

人工智能 2023年6月1日
0066
基于微调BERT的中文评论情感分类模型（支持CPU、GPU）

基于微调BERT的中文评论情感分类模型采用ktrain库进行文本分类 * 0.分配GPU（CPU版略过） 1.加载数据 2.打乱数据 3.预处理数据并构造一个中文trasnfor…

人工智能 2023年7月1日
00121
Four—pytorch学习—基本数据类型/标量/张量/dim值

pytorch学习(1) pytorch的基本数据类型在torch中默认的数据类型是32位浮点型（torch.FloatTensor）可以通过torch.set_default…

人工智能 2023年6月4日
0072
数字图像处理-图像基础-复习总结

文章目录数字图像处理复习总结 * 数字图像基础 – 数字图像基础概念采样和量化非均匀采样与量化数字图像常见失真类型数字图像处理基础 – 数字图像处…

人工智能 2023年6月23日
0082
音频（一）时域图、频谱图 Spectrum

时域图 1.1 声音信号是一维的时域信号，无法观察出频率随时间的变化规律。动态信号 x(t): 是描述信号在不同时刻取值的函数, 其中 t是自变量；即横轴代表时间，纵轴是信号…

人工智能 2023年7月26日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

二分类问题中，sigmoid与softmax的区别

大家都在看