【RNN】深入浅出讲解循环神经网络（介绍、原理）

2023年5月27日下午11:59 • 人工智能 • 阅读 75

1、RNN的背景

前馈神经网络不考虑数据之间的关联性，网络的输出只和当前时刻网络的输入相关。然而在解决很多实际问题的时候我们发现，现实问题中存在着很多序列型的数据（文本、语音以及视频等），现实场景如室外的温度是随着气候的变化而周期性的变化的，以及我们的语言也需要通过上下文的关系来确认所表达的含义。

这些序列型的数据往往都是具有时序上的关联性的，既某一时刻网络的输出除了与当前时刻的输入相关之外，还与之前某一时刻或某几个时刻的输出相关。而前馈神经网络并不能处理好这种关联性，因为它没有记忆能力，所以前面时刻的输出不能传递到后面的时刻。

因此，就有了现在的循环神经网络，其本质是：拥有记忆的能力，并且会根据这些记忆的内容来进行推断。因此，它的输出就依赖于当前的输入和记忆。相比于前馈神经网络，该网络内部具有很强的记忆性，它可以利用内部的记忆来处理任意时序的输入序列。

2、RNN的原理

循环神经网络（recurrent neural network，简称 RNN）源自于1982年由Saratha Sathasivam 提出的霍普菲尔德网络。循环神经网络，是指在全连接神经网络的基础上增加了前后时序上的关系，可以更好地处理比如机器翻译等的与时序相关的问题。

循环神经网络是一种对序列数据有较强的处理能力的网络。在网络模型中不同部分进行 权值共享使得模型可以扩展到不同样式的样本，比如CNN网络中一个确定好的卷积核模板，几乎可以处理任何大小的图片。将图片中分成多个区域，使用同样的卷积核对每一个区域进行处理，最后可以获得非常好的处理结果。同样的，循环网络使用类似的模块（形式上相似）对整个序列进行处理，可以将很长的序列进行泛化，得到需要的结果。

RNN的目的就是用来处理序列数据的。在传统的神经网络模型中，是从输入层到隐含层再到输出层，层与层之间是全连接的，每层之间的节点是无连接的。但是这种普通的神经网络对于很多问题都无能无力。比如你要预测句子的下一个单词是什么，一般需要用到前面的单词，因为一个句子中前后单词并不是独立的。

相比于词袋模型和前馈神经网络模型，RNN可以考虑到词的先后顺序对预测的影响，RNN包括三个部分： 输入层、隐藏层和输出层。相对于前馈神经网络，RNN可以接收上一个时间点的隐藏状态。

3、RNN的网络结构

RNN 不是刚性地记忆所有固定长度的序列，而是通过隐藏状态来存储之前时间步的信息。

图1 典型的 RNN 是有环结构

由上图可见：一个典型的 RNN 网络架构包含一个输入，一个输出和一个神经网络单元。和普通的前馈神经网络的区别在于：RNN 的神经网络单元不但与输入和输出存在联系，而且自身也存在一个循环 / 回路 / 环路 / 回环 (loop)。这种回路允许信息从网络中的一步传递到下一步。

同时，RNN 还能按 时间序列展开循环 (unroll the loop) 为如下形式：

图2 展开的 RNN

以上架构不仅揭示了 RNN 的实质：上一个时刻的网络状态将会作用于（影响）到下一个时刻的网络状态，还表明 RNN 和序列数据密切相关。同时，RNN 要求每一个时刻都有一个输入，但是不一定每个时刻都需要有输出。

进一步地，公式化 RNN 的结构：

图3 单个展开的RNN结构

图4 RNN的计算结构图

其中，圆形的箭头表示隐藏层的自连接。在RNN中，每一层都共享参数U、V、W，降低了网络中需要学习的参数，提高学习效率。

输入单元（input units）：

隐藏单元（hidden units）：

输出单元（output units）：

输入层：

表示时刻t的输入。

隐藏层：

，f是非线性激活函数，比如tanh。

输出层：

，softmax函数是归一化的指数函数，使每个元素的范围都在0到1之间，并且所有元素的和为1。

循环神经网络的输入是序列数据，每个训练样本是一个时间序列，包含多个相同维度的向量。网络的参数如何通过训练确定？这里就要使用解决循环神经网络训练问题的 Back Propagation Through Time 算法，简称 BPTT。

循环神经网络的每个训练样本是一个时间序列，同一个训练样本前后时刻的输入值之间有关联，每个样本的序列长度可能不相同。训练时先对这个序列中的每个时刻的输入值进行正向传播，再通过反向传播计算出参数的梯度值并更新参数。

循环神经网络在进行反向传播时也面临梯度消失或者梯度爆炸问题，这种问题表现在时间轴上。如果输入序列的长度很长，人们很难进行有效的参数更新。通常来说梯度爆炸更容易处理一些。梯度爆炸时我们可以设置一个梯度阈值，当梯度超过这个阈值的时候可以直接截取。

有三种方法应对 梯度消失问题：

（1）合理的初始化权重值。初始化权重，使每个神经元尽可能不要取极大或极小值，以躲开梯度消失的区域。

（2）使用 ReLu 代替 sigmoid 和 tanh 作为激活函数。

（3）使用其他结构的RNNs，比如长短时记忆网络（LSTM）和门控循环单元（GRU），这是最流行的做法。

4、PyTorch的使用

pytorch 中使用 nn.RNN 类来搭建基于序列的循环神经网络，它的构造函数有以下几个参数：

input_size&#xFF1A;&#x8F93;&#x5165;&#x6570;&#x636E;X&#x7684;&#x7279;&#x5F81;&#x503C;&#x7684;&#x6570;&#x76EE;&#x3002;
hidden_size&#xFF1A;&#x9690;&#x85CF;&#x5C42;&#x7684;&#x795E;&#x7ECF;&#x5143;&#x6570;&#x91CF;&#xFF0C;&#x4E5F;&#x5C31;&#x662F;&#x9690;&#x85CF;&#x5C42;&#x7684;&#x7279;&#x5F81;&#x6570;&#x91CF;&#x3002;
num_layers&#xFF1A;&#x5FAA;&#x73AF;&#x795E;&#x7ECF;&#x7F51;&#x7EDC;&#x7684;&#x5C42;&#x6570;&#xFF0C;&#x9ED8;&#x8BA4;&#x503C;&#x662F; 1&#x3002;
bias&#xFF1A;&#x9ED8;&#x8BA4;&#x4E3A; True&#xFF0C;&#x5982;&#x679C;&#x4E3A; false &#x5219;&#x8868;&#x793A;&#x795E;&#x7ECF;&#x5143;&#x4E0D;&#x4F7F;&#x7528; bias &#x504F;&#x79FB;&#x53C2;&#x6570;&#x3002;
batch_first&#xFF1A;&#x5982;&#x679C;&#x8BBE;&#x7F6E;&#x4E3A; True&#xFF0C;&#x5219;&#x8F93;&#x5165;&#x6570;&#x636E;&#x7684;&#x7EF4;&#x5EA6;&#x4E2D;&#x7B2C;&#x4E00;&#x4E2A;&#x7EF4;&#x5EA6;&#x5C31;&#x662F; batch &#x503C;&#xFF0C;&#x9ED8;&#x8BA4;&#x4E3A; False&#x3002;&#x9ED8;&#x8BA4;&#x60C5;&#x51B5;&#x4E0B;&#x7B2C;&#x4E00;&#x4E2A;&#x7EF4;&#x5EA6;&#x662F;&#x5E8F;&#x5217;&#x7684;&#x957F;&#x5EA6;&#xFF0C; &#x7B2C;&#x4E8C;&#x4E2A;&#x7EF4;&#x5EA6;&#x624D;&#x662F;batch&#xFF0C;&#x7B2C;&#x4E09;&#x4E2A;&#x7EF4;&#x5EA6;&#x662F;&#x7279;&#x5F81;&#x6570;&#x76EE;&#x3002;
dropout&#xFF1A;&#x5982;&#x679C;&#x4E0D;&#x4E3A;&#x7A7A;&#xFF0C;&#x5219;&#x8868;&#x793A;&#x6700;&#x540E;&#x8DDF;&#x4E00;&#x4E2A; dropout &#x5C42;&#x629B;&#x5F03;&#x90E8;&#x5206;&#x6570;&#x636E;&#xFF0C;&#x629B;&#x5F03;&#x6570;&#x636E;&#x7684;&#x6BD4;&#x4F8B;&#x7531;&#x8BE5;&#x53C2;&#x6570;&#x6307;&#x5B9A;&#x3002;

RNN 中最主要的参数是 input_size 和 hidden_size，这两个参数务必要搞清楚。其余的参数通常不用设置，采用默认值就可以了。

rnn = torch.nn.RNN(20,50,2)
input = torch.randn(100 , 32 , 20)
h_0 =torch.randn(2 , 32 , 50)
output,hn=rnn(input ,h_0)
print(output.size(),hn.size())
'''
torch.Size([100, 32, 50]) torch.Size([2, 32, 50])
'''

关注微信公众号【有梦想的程序星空】，了解软件系统和人工智能算法领域的前沿知识，让我们一起学习、一起进步吧！

Original: https://blog.csdn.net/kevinjin2011/article/details/125069293
Author: 程序遇上智能星空
Title: 【RNN】深入浅出讲解循环神经网络（介绍、原理）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/528258/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微信对接chatGPT，实现自动回复消息、在线答疑等功能

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年7月31日
00108
paddlepaddle 5 搭建卷积神经网络对自己的数据进行分类

1、下载或准备数据没有准备好数据的朋友可以访问flowers数据集.rar-深度学习文档类资源-CSDN下载，下载后只保留其中的flowers文件夹即可。有数据的朋友请将自己的数…

人工智能 2023年7月2日
0065
2020ECCV|EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection阅读笔记

论文题目：EPNet: Enhancing Point Features with Image Semantics for 3D Object Detection单位：华中科技大学…

人工智能 2023年7月12日
0054
#Reading Paper#STAM:A Spatiotemporal Aggregation Method for Graph Neural Network-based Recommendatio

论文题目：STAM: A Spatiotemporal Aggregation Method for Graph Neural Network-based Recommendati…

人工智能 2023年5月31日
0084
YOLOX系列文章（二）：win10+cpu运行YOLOX

win10+cpu运行YOLOX教程 * – 0.本次任务 – 1.搭建YOLOX开发环境 – + 下载文件 + 安装win10+cpu版本所需…

人工智能 2023年7月12日
0044
ISP学习（1）

文章目录一、什么是isp 二、ISP的框架三、ISP的逻辑控制四、ISP上的Firmware包含三部分五、内置isp和外置isp * 5.1 内置ISP 5.2外置ISP …

人工智能 2023年6月18日
0057
大数据毕业设计题目50例

1、”放管服”环境下科技政务大数据平台研究 2、大数据对会计的挑战及其应对策略试析 3、新疆畜牧业进入大数据时代 4、大数据时代高校教学实效问题与路径选择 …

人工智能 2023年7月25日
0064
30行JS代码带你手写自动回复语音聊天机器人

🥂(❁´◡`❁)您的点赞👍➕评论📝➕收藏⭐是作者创作的最大动力🤞 ; 前言现如今生活中到处都是聊天机器人的身影，聊天机器人不仅仅能减少人工的聊天压力，而且十分的可爱有趣，安卓系统…

人工智能 2023年7月26日
0047
ModuleNotFoundError: No module named ‘transformers‘，已经安装了transformers库

明明已经安装了transformers库了，运行代码时却说找不到。先说明我的环境。系统：windowsIDE：pycharm框架：PyTorch包管理：Anaconda 我用的w…

人工智能 2023年6月23日
0079
【NLP_事件抽取】基于模板匹配

源码来源 https://github.com/liuhuanyong/EventTriplesExtraction https://github.com/liuhuanyong/…

人工智能 2023年5月27日
0070
Qt扫盲-QScrollArea理论总结

QScrollArea理论总结 * – 1. 概述 – 2. 滚动条策略 – 3. 子控件 – 4. 尺寸提示 1. 概述 QScr…

人工智能 2023年7月31日
0045
解决CUDA driver version is insufficient for CUDA runtime version

项目场景： conda环境下运行tensorflow代码，配置环境如下：tensorflow==>1.11cuda==>9.2cudnn==>7.13Driver…

人工智能 2023年5月26日
00186
Encoder-Decoder 模型架构详解

文章目录概述 Seq2Seq（ Sequence-to-sequence ） Encoder-Decoder的缺陷 Attention 机制的引入 Transformer中的En…

人工智能 2023年6月23日
0075
Pytorch中的register_buffer()

Python参考手册，官方正式版参考手册，chm版。以下摘取部分内容:Navigation index modules | next | Python >> 3.6.5…

人工智能 2023年6月16日
0078
lda2vec (4)——计算理论

word2vec中：上下文向量是枢轴词语的词向量LDA中：上下文向量是文档向量lda2vec中：上下文向量=词向量+文档向量区分语料中随机抽取的词语和负采样词语的损失函数：当损…

人工智能 2023年5月28日
0088
【Spring Boot】自定义启动器starter

一、背景虽然Spring官方给我们提供了很多的启动器供我们使用但有时候我们也会遇到某些特殊场景，这些启动器满足不了这个时候就需要自定义一个启动器供我们使用二、自定义启动器在之…

人工智能 2023年6月30日
0083

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【RNN】深入浅出讲解循环神经网络（介绍、原理）

大家都在看