激活函数Swish和Hardswish简介

2023年6月17日上午12:14 • 人工智能 • 阅读 57

前言

Swish激活函数和Hardswish激活函数学习笔记。

Swish论文

Searching for Activation Functions，Google出品。

论文摘要翻译和解读

The choice of activation functions in deep networks has a significant effect on the training dynamics and task performance.

深度网络中激活函数的选择对训练动态（training dynamics）和任务性能有显著影响。

training dynamics：指的是训练过程中，模型的性能指标随迭代轮数变化的情况。影响training dynamics的因素不止一个，每种网络结构都有自己的training dynamic，但有些因素对各类网络的traning dynamics都有影响，比如激活函数、学习率等。

Currently, the most successful and widely-used activation function is the Rectified Linear Unit (ReLU).

目前，最成功和广泛使用的激活函数是整流线性单元（ReLU）。

Although various hand-designed alternatives to ReLU have been proposed, none have managed to replace it due to inconsistent gains.

虽然已经提出了各种手工设计的ReLU替代品，但由于增益不一致，没有一个能够取代它。

In this work, we propose to leverage automatic search techniques to discover new activation functions.

在这项工作中，我们建议利用自动搜索技术来发现新的激活功能。

Using a combination of exhaustive and reinforcement learning-based search, we discover multiple novel activation functions.

通过结合暴力搜索和基于强化学习的搜索，我们发现了多种新颖的激活函数。

We verify the effectiveness of the searches by conducting an empirical evaluation with the best discovered activation function.

我们通过对发现的最佳激活函数进行实证评估来验证搜索的有效性。

实验评估，就是不用理论分析。

Our experiments show that the best discovered activation function, f(x)=x⋅sigmoid(βx), which we name Swish, tends to work better than ReLU on deeper models across a number of challenging datasets.

我们的实验表明，在许多具有挑战性的数据集中，所发现的最佳激活函数 f(x)=x⋅sigmoid(βx)，我们将其命名为Swish，在更深的模型上往往比ReLU更好。

s i g m o i d ( x ) = 1 1 + e x p ( − x ) sigmoid(x)= \frac{1}{1 + exp(−x)}s i g m o i d (x )=1 +e x p (−x )1

β，常量，或者是可学习的参数。
如果β = 1， f(x)=x⋅sigmoid(x)，相当于Sigmoid-weighted Linear Unit (SiL) 。
如果β = 0，Swish 变成了缩放线性函数 f(x) = x/2。
如果β → ∞，sigmoid 分量接近 0-1 函数，因此 Swish 变得像 ReLU 函数。
这表明，我们可以大致地把Swish 视为一个平滑函数，它在线性函数和 ReLU 函数之间进行非线性插值。如果将插值程度设置为可训练参数，则模型可以控制β。

从下图可以看到不同的β取值时的函数曲线，当β =10的时候，就开始和ReLU很靠近了。

For example, simply replacing ReLUs with Swish units improves top-1 classification accuracy on ImageNet by 0.9% for Mobile NASNet-A and 0.6% for Inception-ResNet-v2.

例如，只需将 ReLU 替换为 Swish 单元，Mobile NASNet-A 的 ImageNet 上 top-1 分类准确率就会提高 0.9%，Inception-ResNet-v2 的分类准确率提高 0.6%。

相当于白拿0.9%的准确率，不拿白不拿。
但摘要中并没有提到收敛速度的对比。

The simplicity of Swish and its similarity to ReLU make it easy for practitioners to replace ReLUs with Swish units in any neural network.

Swish的简单性及其与ReLU的相似性使从业者可以轻松地在任何神经网络中用Swish单元替换ReLU。

后来的论文《Searching for MobileNetV3》发现，Swish只有在深层网络中才能发挥作用，并且它还是有计算量的，于是就提出了hardswish，也就是硬编码的swish。

; Hard-Swish激活

计算公式

; 函数图像

pytorch中已经提供了hardswish激活函数，直接用。

Original: https://blog.csdn.net/m0_48742971/article/details/123438626
Author: coder1479
Title: 激活函数Swish和Hardswish简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/627511/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Sox(Sound eXchange)一款强大的音频处理工具格式转化、切割音频、合并音频等

Sox(Sound eXchange)是一款强大的音频处理工具，能够合并、拆分多通道；能播放能录音；可以截取音频的某一部分或删除开头结尾部分。能满足大部分音频处理的操作需求。安装…

人工智能 2023年5月27日
0069
【Pandas】DataFrame查询数据

DataFrame查询数据加载数据通过索引查询 * 查询某(几)列查询一列的某(几)行查询多列的某(几)行使用loc和iloc方法查询 * 使用bool-seri…

人工智能 2023年7月15日
0067
计算机视觉数据集清单-附赠tensorflow模型训练和使用教程

我在这里整理了一些计算机视觉中使用到的数据集，大家可以根据需要下载。友情提示：使用右侧的目录可以帮助你快速找到你想要的数据集物体分类物体分类是计算机视觉中一项经典的任务，用户…

人工智能 2023年5月26日
0066
通关4级之写作（2021.02.26）

前言通关4级系列已经完结了 ★,°:.☆(￣▽￣)/$: .°★更多相关文章点击阅读通关4级之阅读理解通关4级之听力通关4级之写作通关4级之翻译通关4级之词汇点赞和评论超过20…

人工智能 2023年6月10日
0072
第2章: 知识表示

知识表示什么是知识表示知识表示是认知科学和人工智能两个领域共同存在的问题。在认知科学里，他关系到人类如何存储和处理资料。在人工智能里，其主要目标为存储知识，让程序能够处理，达到…

人工智能 2023年6月1日
00120
【知识图谱】关系抽取

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月1日
0069
【原创好文】当机器学习遇到数据量不够时，这几个Python技巧为你化解难题

有时候我们在进行模型的训练与优化的时候，是需要基于现有的数据集来操作的，要是数据量比较充足的情况下倒是还好说，但是要是遇到数据量不够的情况，该怎么办呢？今天小编就给大家来介绍几个方…

人工智能 2023年7月16日
0047
Pytorch深度学习（六）：Softmax函数实现多分类

### 回答1： PyTorch 实现 softmax 多分类_的步骤如下： 1. 导入必要的库和数据集。 2. 定义模型结构，包括输入层、隐藏层和输出层。 3. 定义损失 _函数…

人工智能 2023年7月21日
0084
图数据库nebula graph小结

nebula graph操作手册 1. 摘抄网址官网：Nebula Graph Database 手册 (nebula-graph.com.cn) 论坛：https://disc…

人工智能 2023年6月1日
0063
R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）

R语言使用pairs函数可视化散点图矩阵（scatter plot matrix）目录 R语言使用pairs函数可视化散点图矩阵（scatter plot matrix） Ori…

人工智能 2023年6月19日
0065
机器学习之回归算法浅析

总的来说，机器学习的问题可以分为两大类：分类和回归，不管是分类还是回归，其本质是一样的，都是对输入做出预测，并且都是监督学习。说白了，就是根据特征，分析输入的内容，判断它的类别，或…

人工智能 2023年6月18日
0057
gsc框架下bf和bm路的构造

bf的构造根据方向得到的导向向量构造类似于w = [ e j w τ 1 e j w τ 2 e j w τ 3 . . . ] w=[e^{jw\tau1} \quad e^{…

人工智能 2023年5月25日
0091
如何使用 Bootstrap 创建一个简单的仪表板

您想从现成的元素创建网站吗？Bootstrap是最流行的CSS框架之一。它允许我们从现成的组件（如导航栏或窗体）构建漂亮的 UI。Bootstrap 还提供响应式设计，因此，在正确…

人工智能 2023年6月26日
0073
[CSS]画三角&鼠标样式&输入框轮廓线&防止文本域拖拽

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月24日
0056
第三十四课.模糊神经网络

目录模糊理论 * Fuzzy Set Fuzzy set operations Fuzzy Min Max Classifier 应用：基于模糊神经网络的水轮机调速器PID控制 …

人工智能 2023年6月15日
0075
ADAS简介

ADAS是Advanced Driver Assistance System的缩写，中文的意思就是——高级驾驶辅助系统。简单来讲就是紧急情况下在驾驶员主观反应之前作出主动判断和预防…

人工智能 2023年6月25日
0077

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

激活函数Swish和Hardswish简介

计算公式

; 函数图像

大家都在看