循环神经网络 RNN

2023年7月11日下午7:13 • 技术杂谈 • 阅读 78

生活中，我们经常会遇到或者使用一些时序信号，比如自然语言语音，自然语言文本。以自然语言文本为例，完整的一句话中各个字符之间是有时序关系的，各个字符顺序的调换有可能变成语义完全不同的两句话，就像下面这个句子：

张三非常生气，冲动之下打了李四
李四非常生气，冲动之下打了张三

从以上这个例子可以看出，名字的调换造成了完全不同的后果，可见自然语言的时序性非常重要。那么如何对这种带有时序关系的数据进行建模呢？本节我们将来介绍一个非常经典的循环神经网络RNN，希望这篇本文能够对读者带来一些帮助。本文内容组织如下：

1. 循环神经网络RNN是什么

循环神经网络（Recurrent Neural Network，RNN）是一个非常经典的面向序列的模型，可以对自然语言句子或是其他时序信号进行建模。进一步讲，它只有一个物理RNN单元，但是这个RNN单元可以按照时间步骤进行展开，在每个时间步骤接收当前时间步的输入和上一个时间步的输出，然后进行计算得出本时间步的输出。

下面我们举个例子来讨论一下，如图1所示，假设我们现在有这样一句话：”我爱中国”，经过分词之后变成”我，爱，中国”这3个单词，RNN会根据这4个单词的时序关系进行处理，在第1个时刻处理单词”我”，第2个时刻处理单词”爱”，依次类推。

图1 RNN网络结构图

从图1上可以看出，RNN在每个时刻t t均会接收两个输入，一个是当前时刻的单词[{x_{\rm{t}}}]，一个是来自上一个时刻的输出[h_\left{ {t – 1} \right}]，经过计算后产生当前时刻的输出[{h_{\rm{t}}}]。例如在第2个时刻，它的输入是”爱”和[{h_1}]，它的输出是[{h_2}]；在第3个时刻，它的输入是”人工”和[{h_2}], 输出是[{h_3}]，依次类推，直到处理完最后一个单词。

总结一下，RNN会从左到右逐词阅读这个句子，并不断调用一个相同的RNN Cell来处理时序信息，每阅读一个单词，RNN首先将本时刻t t的单词x t xt和这个模型内部记忆的状态向量[{h_t-1}]融合起来，形成一个带有最新记忆的状态向量[{h_t}]。

Tip：当RNN读完最后一个单词后，那RNN就已经读完了整个句子，一般可认为最后一个单词输出的状态向量能够表示整个句子的语义信息，即它是整个句子的语义向量，这是一个常用的想法。

2. RNN的公式推导

在第1节，我们从宏观上讨论了RNN的工作原理，那么RNN内部是怎么计算的呢，即在每个时刻如何根据输入计算得到输出的呢？本节我们来探讨这个话题。

前边我们谈到，在每个时刻t t，RNN会接收当前时刻的输入单词x t xt和上一个时刻的输出状态h t −1 ht−1，然后计算得到当前时刻的输出h t ht，在RNN中这个实现机制比较简单：

[h_t{\rm{ }} = {\rm{ }}tanh\left( {Wx_t{\rm{ }} + {\rm{ }}Vh_\left{ {t – 1} \right} + b} \right)]

即在时刻t t，RNN单元会对两个输入x t xt和h t −1 ht−1进行线性变换，然后将结果使用t a n h tanh激活函数进行处理，得到当前时刻t t的输出h t ht。

这里需要注意一下，tanh函数是一个值域(-1,1)的函数，如图2所示，可以长期维持内部记忆在一个固定的数值范围内，防止因多次迭代更新导致的数值爆炸，同时，tanh的导数是一个平滑的函数，让神经网络的训练变得更加简单。

图2 tanh函数图像

3. RNN的缺陷

上边我们貌似提出了一个非常优秀的RNN模型建模时序数据，但在真实的任务训练过程中，存在一个明显的缺陷，那就是当阅读很长的序列时，网络内部的信息会逐渐变得越来越复杂，以至于超过网络的记忆能力，使得最终的输出信息变得混乱无用。例如下面这句话：

我觉得这家餐馆的菜品很不错，烤鸭非常正宗，包子也不错，酱牛肉很有嚼劲，但是服务员态度太恶劣了，我们在门口等了50分钟都没有能成功进去，好不容易进去了，桌子也半天没人打扫，整个环境非常吵闹，我的孩子都被吓哭了，我下次不会带朋友来。

显然这是个比较长的文本序列，当RNN读到这句话时，有可能前半句还能准确地表达这句话的语义，但是读到后半句可能就完全混乱了，不能准确地表达这句话的语义信息，即不能保持长期的信息之间的依赖。

因此，针对这个问题，后续出现了很多基于RNN的改进模型，比如LSTM，GRU等等，这些在后续的章节我们将继续讨论。

4. RNN的几种常见模式

循环神经网络可以应用到很多不同类型的任务中，根据这些任务的的特点可以分为以下几种模式：

序列到类别模式
同步的序列到序列模式
异步的序列到序列模式

下面我们来进一步聊聊这几种模式，以便大家RNN适合应用在什么样的任务上。

4.1 序列到类别模式

第1节我们讲到，在RNN读完一个句子的最后一个单词后，该单词对应的输出便可以看做能够代表整个句子的语义向量，根据这个语义向量可以进一步计算一些任务，比如文本分类，假设通过这个语义向量能够将”我爱人工智能”这句话划分为”科技”类别，那这就是一个完整的序列到类别模式的应用。

序列到类别模式是将一串输入映射为一个向量，如图3所示。在这种模式下，模型的输入是一个序列=[x 1 ,x 2 ,x 3 ,..,x n ]，最终使用的模型输出是一个向量h n (图3中输出的绿色向量)，可以根据这个输出向量h n进一步做一些任务。

图3 序列到类别模式图

除了将最后时刻的状态作为整个序列的语义向量之外，我们还可以对整个序列的所有状态进行平均，并用这个平均状态作为整个序列的语义向量，如图4所示。

图4 序列到类别模式图

4.2 同步的序列到序列模式

同步的序列到序列模式是将一串输入[x = \left[ {x_1,x_2,..,x_n} \right]]映射为一串输出向量[h = \left[ {h_1,h_2,…,h_n} \right]]]，并且每个输入和输出是一一对应的，如图5所示。同步的序列到序列模式主要用于序列标注(Sequence Labeling) 任务上。

图5 同步的序列到序列模式

以词性标注(Part-of-Speech Tagging) 为例，该任务期望得到一个句子中每个单词的词性，因此它的输入就是一个句子中的单词，它的输出就是每个单词对应的词性。

4.3 异步的序列到序列模式

异步的序列到序列模式也成为编码器-解码器模型(encoder-decoder)，它同样是将一串输入映射[x = \left[ {x_1,x_2,..,x_n} \right]]为一串输出向量[h = \left[ {h_1,h_2,…,h_m} \right]]，但是输入序列和输出序列不要求有严格的一一对应关系，也不需要保持相同的长度，如图6所示。例如在机器翻译-英译汉任务中，输入为中文的单词序列，输出为英文的单词序列。

图6 异步的序列到序列模式

在这个模式下，一般先将输入序列传到一个RNN(encoder，图6橙色单元)中，然后再将encoder的输出向量作为另一个RNN(解码器，图6黄色单元)的输入，由解码器进行序列解码。在解码器的解码过程中，往往会将前一个时刻输出的单词作为当前时刻输入的单词，采用这种自回归的方式进行解码。

Original: https://www.cnblogs.com/beyoncewxm/p/16626568.html
Author: xiaomin_beyonce
Title: 循环神经网络 RNN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/686086/

转载文章受原作者版权保护。转载请注明原作者出处！

技术杂谈

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Rust:axum学习笔记(1) hello world

Rust中的Tokio几乎是同类框架的性能天花板了，而axum在Tokio基础上构建，起点就站在巨人的肩膀上。先来一个Hello World的入门示例： bash;gutter:…

技术杂谈 2023年5月31日
0091
如何封装安全的go

如何封装安全的go 在业务代码开发过程中，我们会有很大概率使用go语言的goroutine来开启一个新的goroutine执行另外一段业务，或者开启多个goroutine来并行执行…

技术杂谈 2023年6月1日
0088
关于棣莫弗定理证明的一个延拓

1.复数我们把形如a+bi的数称为复数，其中a称为实部，b称为虚部，i称为虚数单位，a，b∈R. 在复平面内，任何一个复数都可以表示为r(cosθ+isinθ)的形式，其中，θ叫…

技术杂谈 2023年5月31日
0098
使用vue全家桶制作博客网站

前面的话笔者在做一个完整的博客上线项目，包括前台、后台、后端接口和服务器配置。本文将详细介绍使用vue全家桶制作的博客网站概述该项目是基于vue全家桶（vue、vue-rou…

技术杂谈 2023年5月31日
00107
【转】路由表操作

原文：清空路由表： ubuntu清空route表的方法： 1.打开ubuntu系统，进入终端命令行。 2.输入以下命令进行清空route表即可。 sudo ip route fl…

技术杂谈 2023年5月30日
0095
XPath语法和lxml模块

XPath语法和lxml模块什么是XPath？ xpath（XML Path Language）是一门在XML和HTML文档中查找信息的语言，可用来在XML和HTML文档中对元素…

技术杂谈 2023年6月21日
0085
推荐一款颜值逆天且功能齐全的开源Shell工具！

前言以前在windows上一直使用的SSH工具是XShell，后来转到mac平台，XShell没有mac版本。所以之前一直在找一款颜值高，功能齐全的可以作为日常使用的Shell工…

技术杂谈 2023年7月11日
0088
Java并发编程-线程池

重点内容线程池的使⽤创建线程池提交任务关闭线程池线程池的原理合理配置线程池线程池的监控 1.线程池的创建 new ThreadPoolExecutor(corePoo…

技术杂谈 2023年7月11日
0068
OS第三章错题

OS第三章错题现在看不知道当时为啥做错了…… 这个题要做对，就要分清楚作业和进程不同的状态。作业有收容、运行、完成三种状态。其中在运行时，作业内的…

技术杂谈 2023年7月11日
0063
dataBinding数据绑定

dataBinding数据绑定，可以为静态数据，也可以为动态数据，引用data中的数据或api的动态数据使用$name引用变量，如： <ui> <view&gt…

技术杂谈 2023年6月1日
0073
参加胶东开发者技术大会有感

2015年的时候，也是在12月，我和Bob去北京参加了”全球架构师峰会”，在那次会议上，来自百度、腾讯、阿里巴巴、京东、美团、新浪微博、Twitter等公司…

技术杂谈 2023年5月31日
00113
C++质数判断算法的时间测试

测试标准同时，使用两类情况进行测试：质数判断算法很显然，判断n是不是质数，最简单的只要暴力从2到n过一遍就可以了 template bool isPrime(IntT n) …

技术杂谈 2023年7月24日
0057
关于 PPT 模板

不要把所有的培训都变成「Why What How」，不要去规定包袱要在什么时候抖，表达最怕不自然、没个性。 PPT 是辅助表达的工具，是为了让表达的内容更容易被理解。用 PPT 模…

技术杂谈 2023年7月11日
0053
博客园文章自定义的图片放大功能失效修复

前言好一阵子没逛博客园了, 今天回自己博客搜点东西发现图片放大功能不好使了(不是之前lightbox效果了),很奇怪难道博客园样式升级连这个功能都给屏蔽了? 当时记录的博文:博客…

技术杂谈 2023年6月1日
00109
JSON_语法_值得获取

JSON_语法_值得获取 json对象.键名 json对象[“键名”] 数据对象[索引] 获取值： Title //定义基本格式 var person = …

技术杂谈 2023年6月21日
0079
Intel® VTune™ Profiler ——异常检测，没有感觉到惊艳，性能的话还是热点分析更好用，另外microarch 分析可以深入cpu看性能问题

一开始需要安装一个driver！ Install the Sampling Drivers for Windows* Targets To install the drivers …

技术杂谈 2023年5月30日
00120

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31