常用激活函数(relu,glu,gelu,swish等)

2023年7月21日上午10:49 • 人工智能 • 阅读 57

激活函数的主要作用是提供网络的非线性建模能力。
本文简要介绍一些常用的激活函数。

torch.nn.Sigmoid
f ( x ) = 1 1 + e − x f(x) = \frac{1}{1+e^{-x}}f (x )=1 +e −x 1

可以被表示做概率，或者用于输入的归一化。连续，光滑，严格单调，以(0,0.5)中心对称，是一个非常良好的阈值函数。

导数：f ′ ( x ) = f ( x ) ( 1 − f ( x ) ) f'(x) = f(x)(1-f(x))f ′(x )=f (x )(1 −f (x )), 计算方便

lim ⁡ x → ∞ f ′ ( x ) = 0 \lim _{x \rightarrow \infty} f^{\prime}(x)=0 lim x →∞f ′(x )=0
具有这种性质的称为软包和激活函数，当|x|>c, 其中c为常数，f'(x)=0
一旦落入饱和区，导致了向底层传递的梯度值变得非常小，此时网络参数很难得到有效的训练，（梯度消失）

缺点：

torch.nn.Tanh
成为双曲正切函数，取值范围[-1,1]

$\tanh(x) = \frac{e^x – e{-x}}{ex + e^{-x}} = 2*sigmoid(x) – 1 $

Tanh是0均值的，因此实际应用中tanh会比sigmoid更好，收敛更快。但是仍然存在梯度饱和和指数计算的问题。

torch.nn.ReLU(inplace=False)
整流线性单元（Rectified linear unit， Relu）比较常用

f ( x ) = m a x ( 0 , x ) f(x)=max(0,x)f (x )=m a x (0 ,x )

使用Relu的SGD算法的收敛速度比sigmoid和tanh块，在x>0区域上不会出现梯度饱和和梯度消失的问题。计算复杂度低，不需要指数运算。

缺点：

torch.nn.LeakyReLU(negative_slope=0.01, inplace=False)
为了解决dead relu现象，用一个类似0.01的小值来初始化神经元，从而使relu在负数区域更偏向于激活而不是死掉，这里的斜率是确定的。

f ( x ) = m a x ( α x , x ) f(x) = max(\alpha x, x)f (x )=m a x (αx ,x )

其中α \alpha α为确定值，一般设为较小的值

优点：缓解了dead relu问题

缺点：实际中不太稳定，有些近似线性，导致在复杂分类中效果不好。

torch.nn.PReLU(num_parameters=1, init=0.25)
参数整流线性单元，用来解决Relu带来的神经元坏死问题。

f ( x ) = m a x ( α x , x ) f(x) = max(\alpha x, x)f (x )=m a x (αx ,x )

其中α \alpha α是可学习参数，一般初始化为0.25。（和leaky relu的区别）

torch.nn.ELU(alpha=1.0, inplace=False)
指数线性单元，具有Relu的优势，没有dead relu的问题，输出均值接近于0.有负数饱和区，从而对噪声有一些鲁棒性。

f ( x ) = { x if x > 0 α ( exp ⁡ ( x ) − 1 ) if x ≤ 0 f(x)= \begin{cases}x & \text { if } x>0 \ \alpha(\exp (x)-1) & \text { if } x \leq 0\end{cases}f (x )={x α(exp (x )−1 )if x >0 if x ≤0

其中α \alpha α是超参数，默认为1.0

缺点：计算量稍大，原点不可导

门控机制激活函数。

glu：f ( x ) = ( x ∗ w + b ) ⊗ ( x ∗ v + c ) f(x) = (xw +b) \otimes (xv + c)f (x )=(x ∗w +b )⊗(x ∗v +c )

gtu: f ( x ) = t a n h ( x ∗ w + b ) ⊗ ( x ∗ v + c ) f(x) = tanh(xw +b) \otimes (xv + c)f (x )=t a n h (x ∗w +b )⊗(x ∗v +c )

其中，w,v,b,c都是可学习参数。

高斯误差线性单元，这种激活函数在激活中加入了随机正则的思想，是一种对神经元输入的概率描述。
x P ( X ≤ x ) = x Φ ( x ) x P(X \leq x)=x \Phi(x)x P (X ≤x )=x Φ(x )
其中 Φ ( x ) \Phi(x)Φ(x ) 指的是 x x x 的高斯正态分布的累计分布，完整形式如下:
x P ( X ≤ x ) = x ∫ − ∞ x e − ( X − μ ) 2 2 σ 2 2 π σ d X x P(X \leq x)=x \int_{-\infty}^{x} \frac{e^{-\frac{(X-\mu)^{2}}{2 \sigma^{2}}}}{\sqrt{2 \pi} \sigma} \mathrm{d} X x P (X ≤x )=x ∫−∞x 2 πσe −2 σ2 (X −μ)2 d X
计算结果约为:
0.5 x ( 1 + tanh ⁡ [ 2 π ( x + 0.044715 x 3 ) ] ) 0.5 x\left(1+\tanh \left[\sqrt{\frac{2}{\pi}}\left(x+0.044715 x^{3}\right)\right]\right)0 .5 x (1 +tanh [π2 (x +0 .0 4 4 7 1 5 x 3 )])
或者可以表示为:
x ∗ s i g m o i d ( 1.702 x ) x * sigmoid(1.702 x)x ∗s i g m o i d (1 .7 0 2 x )
x作为神经元输入，x越大，激活输出x约有可能保留，x越小，越有可能激活结果为0.

gelu作为激活函数训练时，建议使用一个带动量的优化器

pytorch实现:

def gelu(x):
    """Implementation of the gelu activation function.

        For information: OpenAI GPT's gelu is slightly different (and gives slightly different results):
        0.5 * x * (1 + torch.tanh(math.sqrt(2 / math.pi) * (x + 0.044715 * torch.pow(x, 3))))
        Also see https://arxiv.org/abs/1606.08415
"""
    return x * 0.5 * (1.0 + torch.erf(x / math.sqrt(2.0)))

f ( x ) = x ∗ s i g m o i d ( β x ) f(x) = x * sigmoid(\beta x)f (x )=x ∗s i g m o i d (βx )

β \beta β是超参或者可学习的参数。

叫做自门控激活函数，从图像上看，swish函数和relu差不多，唯一区别较大的是接近于0的负半轴区域。swish在深层模型上的效果由于Relu

pytorch实现：

class Swish(torch.nn.Module):
    """Construct an Swish object."""
    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """Return Swish activation function."""
        return x * torch.sigmoid(x)

各位读者老爷，求个赞，点个关注😜
欢迎交流深度学习，语音识别，声纹识别等相关知识

Original: https://blog.csdn.net/weixin_39529413/article/details/123071764
Author: 栋次大次
Title: 常用激活函数(relu,glu,gelu,swish等)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/706881/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

推荐系统中常用的embedding方法

简单来说，Embedding就是用一个低维的向量表示一个物体，可以是一个词，或是一个商品，或是一个电影等等。在传统机器学习模型构建过程中，经常使用one hot encoding…

人工智能 2023年6月15日
0099
YOLOv5 Head解耦

Decoupled_Detect 一、common.py文件中加入DecoupledHead class DecoupledHead(nn.Module): def __init_…

人工智能 2023年7月26日
0055
数据预处理-离群值检测与处理

@数据分析预处理离群值检测数据集中那些明显偏离数据集中其他样本的数据，检测离群值为数据分析与建模提供高质量的数据。 1、3σ法当样本的取值符合正态分布时可以采用3σ法判断异常…

人工智能 2023年7月15日
0066
Python深度学习04——Keras自编码器(AE)实现

参考书目：陈允杰.TensorFlow与Keras——Python深度学习应用实战.北京:中国水利水电出版社,2021 本系列基本不讲数学原理，只从代码角度去让读者们利用最简洁的P…

人工智能 2023年6月25日
0097
Python 最简单的实例：手机通讯录

通讯录是记录了联系人姓名和联系方式的名录，手机通讯录是最常见的通讯录之一，人们可以在通讯录中通过姓名查看相关联系人的联系方式、邮箱、地址等信息，也可以在其中新增联系人，或修改、删除…

人工智能 2023年7月4日
00106
计算机视觉——期末复习（简答题）

1、计算机视觉与机器视觉的区别计算机视觉是利用计算机实现人的视觉功能，即对客观世界中三维场景的感知、加工、解释，侧重于场景分析和图像解释的理论和方法，而机器视觉更关注通过视觉传感…

人工智能 2023年7月27日
0076
深度学习课程笔记——回归、精灵宝可梦案例

目录 1 Regression Case 1.1 Current Case 1.1.1 Senario 1.1.2 Task 2 Regression Steps 2.1 Desi…

人工智能 2023年6月17日
0090
实验三：CART回归决策树python实现（两个测试集）（二）|机器学习

目录 * – python实现 – + 分步 + 源代码（全部） – 测试集1（波士顿房价数据集） – 测试集2（糖尿病数据集） &…

人工智能 2023年6月17日
0084
R实战 | OPLS-DA（正交偏最小二乘判别分析)筛选差异变量(VIP)及其可视化

主成分分析（PCA）是一种无监督降维方法，能够有效对高维数据进行处理。但PCA对相关性较小的变量不敏感，而PLS-DA（偏最小二乘判别分析）能够有效解决这个问题。而OPLS-DA（…

人工智能 2023年6月19日
0098
Pytorch 基于ResNet-18的物体分类（使用CIFAR-10数据集）

✅作者简介：人工智能专业本科在读，喜欢计算机与编程，写博客记录自己的学习历程。🍎个人主页：小嗷犬的博客🍊个人信条：为天地立心，为生民立命，为往圣继绝学，为万世开太平。🥭本文内容：P…

人工智能 2023年7月2日
0093
常用音频接口简介(PDM/PCM/IIS/SLIMBUS)

啊哦~你想找的内容离你而去了哦内容不存在，可能是由于以下原因造成的： [En] The content does not exist and may be caused by t…

人工智能 2023年5月27日
00113
R语言计算回归模型的SST、SSR以及SSE指标实战

R语言计算回归模型的SST、SSR以及SSE指标实战目录 R语言计算回归模型的SST、SSR以及SSE指标实战 #仿真数据 Original: https://blog.csdn…

人工智能 2023年6月17日
0063
图像处理算法之 Hough变换

Hough变换 * – 一、标准Hough线变换(SHT) – + 1.1 原理 + 1.2 SHT步骤 + 1.3 缺点 – 二、渐进概率Ho…

人工智能 2023年6月20日
00109
【MATLAB第5期】源码分享#基于小波时间散射网络(WTSN)和长短期记忆网络 (LSTM) 的ECG信号分类模型，含源代码+中文注释，保姆级教学

【MATLAB第5期】源码分享#基于小波时间散射网络(WTSN)和长短期记忆网络 (LSTM) 的ECG信号分类模型，含源代码+中文注释，保姆级教学引言 1.小波散射网络关于小…

人工智能 2023年7月1日
00103
torch.nn.interpolate—torch上采样和下采样操作

前言：最近博主搭建网络需要用到一些直接对于GPU上的tensor的上采样和下采样操作，如果使用opencv那么就需要先将数据从GPU上面copy到CPU，操作完后在转移到GPU。…

人工智能 2023年6月17日
0084
【云原生】使用Docker commit的方式制作openGauss镜像

前面一期介绍了使用Dockerfile制作openGauss镜像，这种方式是根据打包脚本全新生成一个镜像，属于无中生有。本篇介绍使用docker commit的方式制作openGa…

人工智能 2023年5月30日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

常用激活函数(relu,glu,gelu,swish等)

大家都在看