【学习笔记】【GRU】十八——GRU原理简介与LSTM的比较

2023年5月31日上午3:56 • 人工智能 • 阅读 59

LSTM是RNN的升级版，加了门控装置，解决了长时记忆依赖的问题。但由于门控装置复杂，带来了计算量增加，所以引进了 简化版的LSTM，即GRU。本文介绍GRU的基本原理，并将其与LSTM和RNN进行对比，分析它们各自的优劣。

重点理解 LSTM中h(t)和C(t)的本质，以及 为什么门机制可以解决梯度问题，并且简化计算。

一、从传统RNN说起

传统RNN称为循环神经网络，由于其输入时间序列，使用隐层神经元处理这个时间序列，并在一个 timestep走过这个序列，从而 记下了整个序列的序列信息，隐藏神经元从初始的记忆状态s(0)最后变成了有记忆状态的s(t)。

计算公式如下：

（1）t时刻，隐藏层神经元的激活值为：st=f(Uxt+Wst-1+b1)；

（2）t时刻，输出层的激活值为：ot=ｇ(V*st+b2)

得出的参数为 U：传递输入x的参数；W：传递上一步状态的参数，以及隐层节点和输出层节点的值b1和b2。这样一个序列输入后，预测的值走过timestep步长后，输出了预测结果。

如下图，此时只有一个传递状态h(t)。这样下去难免会出现下图的情况：早期比较早的记忆被忘的差不多了，就 不能处理长序列，记忆长时间的序列信息：

还有就是，由于RNN的梯度计算 依赖于激活函数的对角矩阵与稀疏矩阵U的连积，当激活函数为tanh或者sigmoid时，会出现 梯度消失问题；为relu时会出现 梯度爆炸问题。梯度消失就意外这 对长期依赖关系的不敏感，即长期记忆丢失。

具体梯度原理见：(62条消息) 【神经网络】学习笔记十七——IRNN：初始化矩阵RNN_杨的博客-CSDN博客

基于

（1）梯度问题；

（2）长期记忆丢失问题；

LSTM提供了很好的解决方案。

二、改进的RNN：LSTM

LSTM采用两大机制来解决上面的缺点。首先， 针对梯度消失问题，采用 门机制解决； 对于短期记忆覆盖长期记忆的问题，LSTM采用 cell state来保存长期记忆，配合门机制对信息进行过滤，从而达到对长期记忆的控制。

门机制带来了以下两个好处：

（1）极大减轻了梯度消失问题， 简化了调参复杂度（连乘变成了加法，所以简化）；

（2）门机制提供了 特征过滤，将有用的信息保存，没用的信息过滤， 并保存了长期记忆。

解释一下短期记忆h(t)和长期记忆C(t)的原理和传递关系：

（1）首先，我们要理解h(t)和C(t)的本质。 C(t)的本质是0~t时刻的全局信息， h(t)的本质时0~(t-1)时刻的全局信息的影响下，当前时刻t的信息的上下文表示；

（2）从计算公式中来看，全局信息C(t)是由上一时刻的全局信息C(t-1)和当前时刻信息x(t)经过输入门和遗忘门过滤一些信息，结合而成；

h(t)则是将C(t)先经过tanh函数压缩为（-1，1）之间的数值，然后通过输出门对C(t)进行过滤，来获知当前单元的上下文信息。这意味着 当前时刻的上下文信息h(t)不过是全局信息C(t)的一部分；

（3）注意本单元状态是由当前时刻输入信息x(t)和上下文信息h(t-1)构成的；

门机制解决了以下问题：

（1）门控解决梯度消失问题的原理是，将梯度计算中 激活函数导数的连积变成了加法，同时仅有长时记忆C(t)参加反向传播，这样就不会因为激活函数的对角矩阵元素值大于1或者小于1连乘导致的梯度问题；

（2）解决长期记忆被覆盖的问题：采用 cell state保存长期记忆，配合门机制进行信息过滤，从而很好的保存了长期记忆。

详见：(62条消息) 【神经网络】学习笔记十七——IRNN：初始化矩阵RNN_杨的博客-CSDN博客

三、简化版的LSTM：GRU

GRU是RNN的另一种变体，也采用门机制解决梯度问题和长期记忆被覆盖问题，不同的是GRU可以视作简化版的LSTM，比对一下二者的公式：

可以看出以下几点：

（1）首先， 门的计算公式没什么区别，都是由当前上下文信息h(t-1)和当前时刻输入x(t)组成而成，不过由三个门简化成两个门；

（2）其次，GRU的

相当于LSTM的当前时刻cell状态【学习笔记】【GRU】十八——GRU原理简介与LSTM的比较

， 都表示当前信息；

（3）GRU的h(t)和LSTM的C(t)计算公式一样， 都表示长期记忆；

那么从公式上看，

（1）GRU 抛弃了LSTM的上下文状态信息h(t)，它认为既然已经有了长期记忆，就不需要上下文信息h(t)来参与计算；

（2）其次，在生成当前时刻全局信息时，既然遗忘门和输入门所代表的 前t-1个时刻的全局信息和当前cell的状态信息是此消彼长的关系，就不用两个概率了，直接用

替换掉了输入门

，简单又高效，简化了计算过程；

四、LSTM和GRU的区别和选择

区别有两个：

（1）LSTM选择暴漏部分信息，只输出h(t)，而C(t)只是作为长期记忆的信息载体，并不输出；而GRU选择暴漏全部信息；

（2）输出变化所带来的结构调整：为了与LSTM的信息流保持一致，重置门本质上是输出门的一种变化，由于输出变了，所以其被调整到计算当前cell状态的

中。

总结

首先，可以肯定的是GRU和LSTM都比传统的RNN要表现好。

对于两者来说， GRU参数少，收敛速度更快，花费时间少，可以加速迭代过程。而从效果上说，二者并没有优劣之分，取决于具体的任务和数据集而定。实际上来讲，二者的表现差距往往不大，远远没有调参效果明显。

Original: https://blog.csdn.net/zhuge2017302307/article/details/120686267
Author: 昔我往矣wood
Title: 【学习笔记】【GRU】十八——GRU原理简介与LSTM的比较

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/548479/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

详解DETR （End-to-End Object Detection with Transformers）

文章目录详解DETR （End-to-End Object Detection with Transformers） * 简介网络详解 – 总述 1. BackBo…

人工智能 2023年7月12日
0085
XGBoost的简单安装及入门使用

XGBoost安装及简单入门 XGBoost支持多种操作系统，如Windows, Linux， MacOS等，并支持多种语言版本，如Python, R, Scale, Java等。…

人工智能 2023年6月13日
0075
注意力机制（含pytorch代码及各函数详解）

目录 * – 注意力机制 – + * 非参注意力汇聚概述（不需要学习参数） * 参数化注意力机制概述 * 正式系统学习 * – 1.平均汇聚（池…

人工智能 2023年6月17日
0071
yolov7配置环境

有参考小俊俊的博客的教程，但是中间出了一些小问题自己看着解决的。一、新建yolov7虚拟环境1、在pycharm中新建一个项目，命名为yolov7点击File—-…

人工智能 2023年7月5日
0066
深度学习—— 多层感知器 MLP

多层感知器 MLP MLP是一种前向结构的人工神经网络，映射一组输入向量到一组输出向量。MLP可以被看作是一个有向图，由多个节点层组成，每一层连接到下一层解决的问题：分类问题 M…

人工智能 2023年6月15日
0065
机器学习之逻辑回归算法详解（Sigmoid函数、逻辑回归的损失函数、梯度下降、逻辑回归的正则化、逻辑回归API中的超参数介绍）

机器学习19_逻辑回归（对数几率回归）算法详解（2021.06.07 ~ 2021.06.12）一. 究极总结逻辑回归：一个打着回归旗号，却在做分类任务的分类器。二. 必备知…

人工智能 2023年6月17日
00108
数据分析之卡方检验

1、卡方检验定义卡方检验，是用途非常广的一种假设检验方法，它在分类资料统计推断中的应用，包括两个率或两个构成比比较的卡方检验；多个率或多个构成比比较的卡方检验以及分类资料的相关分…

人工智能 2023年6月19日
00162
基本概念—回归、分类、聚类

原文作者：机器之心原文地址：回归、分类与聚类：三大方向剖解机器学习算法的优缺点在本教程中，作者对现代机器学习算法进行了简要梳理。虽然类似的总结有很多，但是它们都没有真正解释清楚…

人工智能 2023年6月2日
0074
Opencv中的cv2.calcHist()函数的作用及返回值

在讨论其返回值前，我们先来介绍以下calcHist()函数的用法： cv2.calcHist()函数 cv2.calcHist()函数的作用：通过直方图可以很好的对整幅图像的灰度分…

人工智能 2023年7月26日
0049
python数据爬取及数据可视化分析

电影网站数据分析及可视化研究本博客是一篇集数据爬取，存储为excel表格，将数据可视化为一体的博文，数据爬取采用request等方法，数据可视化会使用图表进行展示，有改进的地方还…

人工智能 2023年7月15日
0067
Halcon区域形状特征-area_center、area_holes、select_shape、inner_circle和smallest_rectangle2算子

提示：文章参考了网络上其他作者的文章，以及相关书籍，如有侵权，请联系作者。前言在场景中选择物体的特征是图像测量或者识别的重要基础。区域的形状特征是非常常用的特征，在模式匹配中，…

人工智能 2023年5月26日
00111
pytorch 一个最简单的回归预测

回归预测其实就是根据数据找出对应的拟合函数，假设我们需要拟合的函数为，也就是给一个x，可以输出一个x^2。第一步产生训练数据与对应标签：生成的训练数据只有一个特征值，每一个数据…

人工智能 2023年7月21日
0044
交欣科技：智慧交通企业如何用一个CRM项目撬动数字化转型

安徽交欣科技股份有限公司（以下简称交欣科技），成立于2001年，20余年持续聚焦城市智慧交通和公共安全领域，始终坚持”贴近市场自主创新”的发展方向，先后研制…

人工智能 2023年6月29日
0061
Pandas DataFrame数据遍历的三种方式 iteritems iterrows itertuples

对Pandas对象进行基本迭代的行为取决于类型。在遍历一个Series时，它被视为类似数组，并且基本迭代产生这些值。其他数据结构（如DataFrame和Panel）遵循类似于字典的…

人工智能 2023年7月6日
0045
图神经网络二：消息传递图神经网络

引言这篇是datawhale组队学习之图神经网络第二篇，本笔记主要梳理课程的关键点，以及简单的代码实现。首先我们将学习图神经网络生成节点表征的范式–消息传递（Message …

人工智能 2023年5月30日
0086
算法笔记：ARIMA

1 平稳性平稳性要求经由样本时间序列所得到的拟合曲线，在未来的一段时间内，仍然能按照现在的特征，顺着现在的惯性继续延续下去平稳性要求时间序列的均值和方差不能发生明显的变化（可…

人工智能 2023年6月17日
0048

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【学习笔记】【GRU】十八——GRU原理简介与LSTM的比较

一、从传统RNN说起

二、改进的RNN：LSTM

三、简化版的LSTM：GRU

四、LSTM和GRU的区别和选择

总结

大家都在看