激活函数(sigmoid、tanh、ReLU、softmax)

2023年6月17日上午4:37 • 人工智能 • 阅读 68

文章目录

*
– 1.1、sigmoid函数
– 1.2、tanh函数
– 1.3、ReLU函数
– 1.4、softmax函数

激活函数在神经网络中的作用有很多，主要作用是给神经网络提供非线性建模能力。如果没有激活函数，那么再多层的神经网络也只能处理线性可分问题。常用的激活函数有 sigmoid tanh relu softmax

等。

1.1、sigmoid函数

sigmoid函数将输入变换为(0,1)上的输出。它将范围(-inf,inf)中的任意输入压缩到区间(0,1)中的某个值：
s i g m o i d ( x ) = 1 1 + e x p ( − x ) sigmoid(x)=\frac{1}{1+exp(-x)}s i g m o i d (x )=1 +e x p (−x )1
sigmoid函数是⼀个⾃然的选择，因为它是⼀个平滑的、可微的阈值单元近似。当我们想要将输出视作⼆元分类问题的概率时， sigmoid仍然被⼴泛⽤作输出单元上的激活函数（你可以将sigmoid视为softmax的特例）。然而， sigmoid在隐藏层中已经较少使⽤，它在⼤部分时候被更简单、更容易训练的ReLU所取代。下面为sigmoid函数的图像表示，当输入接近0时，sigmoid更接近线形变换。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
sigmoid=torch.nn.Sigmoid()
y=sigmoid(x)

d2l.plot(x.detach(),y.detach(),'x','sigmoid(x)',figsize=(5,2.5))

sigmoid函数的导数为下面的公示：
d d x s i g m o i d ( x ) = e x p ( − x ) ( 1 + e x p ( − x ) ) 2 = s i g m o i d ( x ) ( 1 − s i g m o i d ( x ) ) \frac{d}{dx}sigmoid(x)=\frac{exp(-x)}{(1+exp(-x))^2}=sigmoid(x)(1-sigmoid(x))d x d s i g m o i d (x )=(1 +e x p (−x ))2 e x p (−x )=s i g m o i d (x )(1 −s i g m o i d (x ))
sigmoid函数的导数图像如下所示。当输入值为0时，sigmoid函数的导数达到最大值0.25；而输入在任一方向上越远离0点时，导数越接近0。


y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of sigmoid')

1.2、tanh函数

与sigmoid函数类似，tanh函数也能将其输入压缩转换到区间(-1,1)上，tanh函数的公式如下：
t a n h ( x ) = 1 − e x p ( − 2 x ) 1 + e x p ( − 2 x ) tanh(x)=\frac{1-exp(-2x)}{1+exp(-2x)}t a n h (x )=1 +e x p (−2 x )1 −e x p (−2 x )
tanh函数的图像如下所示，当输入在0附近时，tanh函数接近线形变换。函数的形状类似于sigmoid函数，不同的是tanh函数关于坐标系原点中心对称。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
tanh=torch.nn.Tanh()
y=tanh(x)

d2l.plot(x.detach(),y.detach(),'x','tanh(x)',figsize=(5,2.5))

tanh函数的导数是：
d d x t a n h ( x ) = 1 − t a n h 2 ( x ) \frac{d}{dx}tanh(x)=1-tanh^2(x)d x d t a n h (x )=1 −t a n h 2 (x )
tanh函数的导数如下，当输入接近0时，tanh函数的导数接近最大值1。与sigmoid函数图像中看到的类似，输入在任一方向上远离0点，导数越接近0。

y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of tanh',figsize=(5,2.5))

1.3、ReLU函数

线性整流单元（ReLU），ReLU提供了一种非常简单的非线性变换。给定元素x x x，ReLU函数被定义为该元素与0的最大值。
R e L U ( x ) = m a x ( x , 0 ) ReLU(x)=max(x,0)R e L U (x )=m a x (x ,0 )
ReLU函数通过将相应的活性值设为0，仅保留正元素并丢弃所有负元素。如下为ReLU函数的曲线图。

import torch
from d2l import torch as d2l
%matplotlib inline

x=torch.arange(-8.0,8.0,0.1,requires_grad=True)
relu=torch.nn.ReLU()
y=relu(x)

d2l.plot(x.detach(),y.detach(),'x','relu',figsize=(5,2.5))

当输入为负时，reLU函数的导数为0，而当输入为正时，ReLU函数的导数为1。当输入值等于0时，ReLU函数不可导。如下为ReLU函数的导数：
f ′ ( x ) = { 1 , x≥0 0 , x


y.backward(torch.ones_like(x),retain_graph=True)
d2l.plot(x.detach(),x.grad,'x','grad of relu',figsize=(5,2.5))

ReLU函数的求导表现的很好：要么让参数消失，要么让参数通过。ReLU减轻了神经网络的梯度消失问题。ReLU函数有很多变体，如LeakyReLU，pReLU等。

1.4、softmax函数

在二分类任务时，经常使用sigmoid激活函数。而在处理多分类问题的时候，需要使用softmax函数。它的输出有两条规则。

每一项的区间范围的(0,1)
所有项相加的和为1.

假设有一个数组V，V i V_i V i 代表V中的第i个元素，那么这个元素的softmax值的计算公式为：
S i = e i ∑ j e j S_i=\frac{e^i}{\sum_j e^j}S i =∑j e j e i

下图为更为详细的计算过程：

如上图所示，输入的数组为[3,1,-3]。那么每项的计算过程为：

当输入为3时，计算公式为e 3 e 3 + e 1 + e − 3 ≈ 0.88 \frac{e^3}{e^3+e^1+e^{-3}}\approx 0.88 e 3 +e 1 +e −3 e 3 ≈0 .8 8

当输入为1时，计算公式为e 1 e 3 + e 1 + e − 3 ≈ 0.12 \frac{e^1}{e^3+e^1+e^{-3}}\approx 0.12 e 3 +e 1 +e −3 e 1 ≈0 .1 2

当输入为-3时，计算公式为e − 3 e 3 + e 1 + e − 3 ≈ 0 \frac{e^{-3}}{e^3+e^1+e^{-3}}\approx 0 e 3 +e 1 +e −3 e −3 ≈0

下面使用代码实现这一计算过程。

x=torch.Tensor([3.,1.,-3.])
softmax=torch.nn.Softmax(dim=0)
y=softmax(x)
print(y)

tensor([0.8789, 0.1189, 0.0022])

那么在搭建神经网络的时候，应该如何选择激活函数？

如果搭建的神经网络的层数不多的时候，选择sigmoid、tanh、relu都可以，如果搭建的网络层数较多的时候，选择不当不当会造成梯度消失的问题，此时一般不宜选择sigmoid、tanh激活函数，最好选择relu激活函数。
在二分类问题中，网络的最后一层适合使用sigmoid激活函数；而多分类任务中，网络的最后一层使用softmax激活函数。

Original: https://blog.csdn.net/tcn760/article/details/124010118
Author: CityD
Title: 激活函数(sigmoid、tanh、ReLU、softmax)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/628558/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

序列模型之王 – Transfomer 全细节详解

序列模型之王-Transfomer详解关键词：深度学习 / 注意力机制 / 序列模型 / 自然语言处理作者：林家兴一. 引言近几年，越来越多得深度学习网络出现在了我们得…

人工智能 2023年5月31日
0085
简单爬虫设计（四）——管理爬虫内部状态

关于本文的一些背景知识，请移步该系列的前序文章。从这篇文章开始讨论爬虫crawler的具体实现，首先讨论爬虫内部维护的数据结构。本系列的第一篇文章已经包含了Crawler控制过…

人工智能 2023年7月17日
0044
【机器学习sklearn】高斯朴素贝叶斯 Gaussian naive bayes

贝叶斯Bayes – Thomas Bayes 前言一、贝叶斯决策论（Bayesian decision theory）二、实例：高斯朴素贝叶斯 Gaussian …

人工智能 2023年6月16日
0081
OpenCV中霍夫直线检测相关函数详解

目录 1、HoughLines()函数 2、HoughLinesP()函数 3、HoughLinesPointSet()函数 4、fitLine()函数 1、HoughLines(…

人工智能 2023年7月19日
0050
多模态机器学习基础、应用及预训练模型介绍

早在公元前四世纪，哲学家和艺术学家提出了多模态的概念，用以定义融合不同内容的表达形式与修辞方法。在当今大数据时代，我们总说数据是多源异构的：多源：数据持有方多样化。比如数据来源于…

人工智能 2023年6月24日
0088
【数值计算1】线性回归问题的几种解法

文章目录 0 引言 1 最小二乘法 * 1.1最小二乘法推导 1.2 拓展：基于最小二乘法的非线性回归 1.3 递归最小二乘法 0 引言线性回归问题在不同的背景下有不同的表述， …

人工智能 2023年6月18日
0065
【OpenCV学习】（十）特征点检测与匹配

【OpenCV学习】（十）特征点检测与匹配背景提取图像的特征点是图像领域中的关键任务，不管在传统还是在深度学习的领域中，特征代表着图像的信息，对于分类、检测任务都是至关重要的；…

人工智能 2023年6月20日
0070
经典文献阅读之–FEC

简介在激光雷达的特征提取中，对整帧的点云数据进行分割是至关重要的，但是非常明显的是在3D场景中，捕获的点云通常是稀疏且非结构化的，分割有可能误分割或者漏分割。今天我们来看一下22…

人工智能 2023年6月3日
0075
cuda与torch的安装匹配

此博客主要用于记录个人的问题解决。如果能帮到路过的朋友那再好不过啦。我在某网站的评论所分享的链接下载的torch，似乎是阿里的源。是1.10.1的torch。 pip show…

人工智能 2023年6月23日
0079
博客反抄袭工作的一些思考和尝试

近日开始着手反抄袭工作，做了一些思考和尝试。现状与动机目前看，比较明显，容易判定的抄袭行为，主要包括: 直接完整复制，虽然容易被识破，但是因为成本低，甚至有些抄袭者使用爬虫进…

人工智能 2023年5月30日
0073
论文笔记 ACL 2021|TEXT2EVENT: Controllable Sequence-to-Structure Generation for End-to-end Event Extract

文章目录 * – 1 简介 – + 1.1 动机 + 1.2 创新 – 2 方法 – + 2.1 事件抽取转换为结构生成 + 2.2…

人工智能 2023年5月31日
0098
目标检测学习笔记11——FPN学习与论文解读

文章目录一、引言二、结构对比三、实现细节四、实验结果一、引言论文链接：https://arxiv.org/abs/1612.03144 FPN：Feature Pyra…

人工智能 2023年7月12日
0053
【不降级的解决方案】ModuleNotFoundError: No module named ‘numpy.testing.decorators‘

之前发现代码报错，出现这个提示，第一反应是在百度和csdn上找，没想到找了一整圈，都在建议我用降级numpy的方法来解决 pip install numpy==1.17.0 注：当…

人工智能 2023年6月15日
0088
labelme 构造自己的数据集

文章目录前言一、labelme是什么？二、安装三、使用前言在我们训练模型的过程中，都是用的现成的数据集比如cifar10数据集等，在我们实际运用过程中，肯定要训练自己的…

人工智能 2023年7月28日
0051
matlab 使用svm进行分类含实例代码（适用于二分类和多分类）

clear,clc %% 二分类 %训练数据20×2,20行代表20个训练样本点，第一列代表横坐标，第二列纵坐标 Train_Data =[-3 0;4 0;4 -2;3 -3;-…

人工智能 2023年7月3日
0091
Pandas reindex重置索引

重置索引（reindex）可以更改原 DataFrame 的行标签或列标签，并使更改后的行、列标签与 DataFrame 中的数据逐一匹配。通过重置索引操作，您可以完成对现有数据的…

人工智能 2023年7月6日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31