【深度学习理论】(6) 循环神经网络 RNN

2023年5月28日上午8:40 • 人工智能 • 阅读 78

大家好，今天和各位分享一下处理序列数据的 循环神经网络RNN的基本原理，并用 Pytorch 实现 RNN 层和 RNNCell 层。

之前的博文中已经用过循环神经网络做过许多实战案例，感兴趣的可以看我这个专栏：https://blog.csdn.net/dgvv4/category_11712004.html

1. 序列的表示方法

在循环神经网络中， 序列数据的 shape 通常是 [batch, seq_len, feature_len]，其中 seq_len 代表特征的个数， feature_len 代表每个特征的表示方法。

对于 自然语言任务：以 shape=[b, 5, 100]为例，其中 5 代表每句话有 5 个单词，而 100 代表每个单词使用一个长度为 100 的向量来表示。

对于 时间序列任务：以 shape=[b, 100, 1]为例，其中 100 代表每个 batch 统计了 100 天的数据，每天有 1 个气温值。

下面 以语言的情感分析任务为例，向大家介绍 处理序列数据的传统方法，如下图：

现在有一个句子 The flower is so beautiful作为输入，通过 wordembedding将 每个单词用一个长度为 100 的向量来表示，然后将每个单词输入至线性层提取特征， 每个单词的输出结果是一个长度为 2 的向量，最后将所有单词聚合起来，经过一个线性层输出得到分类结果。

传统的序列处理方法存在许多缺陷：

（1）计算量庞大。现实生活中的单词量巨大，对每个单词生成一个线性层 x@w+b 提取特征，然后再对线性层输出结果做聚合，模型非常复杂，参数量极其庞大。

（2）没有考虑上下文语境。传统方法只是针对一句话中的每个单词做单独的分析，没有联系前后单词之间的信息。如： i do not think the flower is beautiful句子中，不能看到 beautiful 就说这句话一定是好评，要联系到上文的 not 再做分析。

2. RNN 原理解析

针对传统序列任务模型存在的问题，RNN做出了改进：

（1）优化参数量。通过 权值共享，把每个单词的 w1、w2、w3… 用一个张量 W 来表示，一个RNN层就处理一整个句子。

（2）联系上下文语境。使用一个时序单元处理上下文信息，当前时刻的输入一定要考虑到上一时刻的输出。

下面仍以语言的情感分析任务为例，向大家介绍RNN的基本原理。

RNN单元的计算公式为：

其中，

代表 当前时刻的输入特征；

代表 上一时刻的输出，也是上一时刻聚合后的语境信息；

接下来把公式展开：

其中，

代表 对当前时刻输入的特征提取，

代表 对之前语境信息的特征提取，然后对计算结果使用 tanh 激活函数，得到 本时刻更新后的语境信息

3. RNN 的梯度推导

下面以时间序列预测任务为例，向大家介绍一下 RNN 的梯度更新方式，如下图。

取 RNN 层的最后一个语境信息 ht 作为预测结果输出。 predict代表 前向传播得出的预测值， target代表 真实值， 损失函数为预测值和真实值的 均方误差MSE。

前向传播：

线性变换：

损失函数：

通过损失函数值更新每个时刻的语境的梯度信息

反向传播公式：

分别对每个分式计算偏微分：

其中：

4. 模型结构

下面向大家介绍一下 RNN 层的结构，各个输入和输出张量的 shape

首先， 网络输入的 shape 为 [seq_len, batch, feature_len]。其中 seq_len 代表特征的个数， batch 代表有多少个句子， feature_len 代表每个特征的向量表示， hidden_len 代表 RNN 单元的隐含层神经元个数。

以 batch=3，seq_len=10，feature_len=100，hidden_len=20 为例，向大家介绍 网络的输入和输出的特征的 shape 变化

RNN 层的公式：

shape 变化为：

带入具体数值：

下面在Pytorch中展示单个RNN层的参数的shape

import torch
from torch import nn

100代表feature_len每个单词的向量表示的长度
20代表hidden_len经过RNN层之后每个单词的向量表示长度变成20
rnn = nn.RNN(100, 20)

查看RNN单元的参数
print(rnn._parameters.keys())

查看每个参数的shape
print('W_xh:', rnn.weight_ih_l0.shape,
      'bias_xh:', rnn.bias_ih_l0.shape,
      'W_hh:', rnn.weight_hh_l0.shape,
      'bias_hh:', rnn.bias_hh_l0.shape)

'''
输出结果：

odict_keys(['weight_ih_l0', 'weight_hh_l0', 'bias_ih_l0', 'bias_hh_l0'])

W_xh: torch.Size([20, 100])
bias_xh: torch.Size([20])
W_hh: torch.Size([20, 20])
bias_hh: torch.Size([20])
'''

5. Pytorch 代码实现

5.1 单层 RNN 实现

首先需要实例化一个RNN层

input_size：用多少长的向量来表示一个单词。

hidden_size：经过RNN层特征提取后

，每个单词用多少长的向量表示。

num_layers：共有多少层RNN。

rnn = nn.RNN(input_size, hidden_size, num_layers)

前向传播函数

x：当前时刻的输入特征，shape = [seq_len, batch, feature_len]

h0：上一时刻的语境信息，shape = [num_layers, batch, hidden_size]

out：最后一个时刻的输出结果，shape = [seq_len, batch, hidden_len]

h：所有时刻的语境状态，shape = [num_layers, batch, hidden_size]

out, h = rnn(x, h0)

以 batch=3，seq_len=10，feature_len=100，hidden_len=20 为例，单个RNN层的代码如下：

import torch
from torch import nn

input_size：代表每个单词的向量表示的长度
hidden_size：代表特征提取后，每个单词的向量表示长度
num_layers：代表RNN的层数
rnn = nn.RNN(input_size=100, hidden_size=20, num_layers=1)  # 实例化单层的RNN层

构造输入层shape=[seq_len, batch, feature_len]
x = torch.randn(10, 3, 100)

构造上一时刻的语境shape=[num_layers, batch, hidden_size]
h0 = torch.randn(1, 3, 20)

前向传播的返回值如下
out：代表每个时刻的h的输出结果shape=[seq_len, batch, hidden_len]
h：代表最后一个时刻的输出结果shape=[num_layers, batch, hidden_size]
out, h = rnn(x, h0)

print('out:', out.shape, 'h:', h.shape)

'''
输出结果
out: torch.Size([10, 3, 20])
h: torch.Size([1, 3, 20])
'''

5.2 多层 RNN 实现

参数和上面相同，这里要注意的就是在前向传播的输出结果中， h 代表在最后一个时刻上看之前的所有语境信息，而 out 代表每个RNN层的输出结果。

4层的RNN代码如下：

import torch
from torch import nn

input_size：代表每个单词的向量表示的长度
hidden_size：代表特征提取后，每个单词的向量表示长度
num_layers：代表RNN的层数
rnn = nn.RNN(input_size=100, hidden_size=20, num_layers=4)  # 实例化4层的RNN层

构造输入层shape=[seq_len, batch, feature_len]
x = torch.randn(10, 3, 100)

构造初始时刻的语境shape=[num_layers, batch, hidden_size]
h0 = torch.randn(4, 3, 20)

out：代表每个时刻的h的输出结果shape=[seq_len, batch, hidden_len]
h：代表最后一个时刻的输出结果shape=[num_layers, batch, hidden_size]
out, h = rnn(x, h0)

print('out:', out.shape, 'h:', h.shape)
'''
out: torch.Size([10, 3, 20])
h: torch.Size([4, 3, 20])
'''

5.3 单层 RNNCell 实现

nn.RNN是 将所有句子全部都输入至RNN层中，而 nn.RNNCell需要 手动输入每个句子，并且 当前时刻的输出状态不会自动进入到下一时刻。单个RNNCell结构如下。

实现过程如下：

import torch
from torch import nn

input_size：代表每个单词的向量表示的长度
hidden_size：代表特征提取后，每个单词的向量表示长度
rnncell = nn.RNNCell(input_size=100, hidden_size=20)  # 实例化单层的RNNcell层

构造输入层shape=[seq_len, batch, feature_len]
inputs = torch.randn(10, 3, 100)

构造初始时刻的语境shape=[batch, hidden_size]
h0 = torch.randn(3, 20)

RNNCell的输入shape=[batch, feature_len]
for x in inputs:
    # h0：代表当前时刻的语境信息shape=[batch, hidden_len]
    h0 = rnncell(x, h0)

print('h0:', h0.shape)
'''
h0: torch.Size([3, 20])
'''

5.4 多层的 RNNCell 实现

以两层的 RNNCell 实现为例

第一个 RNNCell 层将每个单词的向量表示长度从 100 变成 20，第二个 RNNCell 层将每个单词的向量表示长度从 20 变成 15。

第一个 RNNCell 的输入是 当前时刻的单词和上一时刻的语境状态h0， 第二个 RNNCell 的输入是 第一个 RNNCell 的输出和上一时刻的语境状态h1。

代码实现如下：

import torch
from torch import nn

input_size：代表每个单词的向量表示的长度
hidden_size：代表特征提取后，每个单词的向量表示长度
rnncell1 = nn.RNNCell(input_size=100, hidden_size=20)  # 实例化单层的RNNcell层
rnncell2 = nn.RNNCell(input_size=20, hidden_size=15)

构造输入层shape=[seq_len, batch, feature_len]
inputs = torch.randn(10, 3, 100)

构造初始时刻的语境shape=[batch, hidden_size]
h0 = torch.randn(3, 20)
h1 = torch.randn(3, 15)

RNNCell的输入shape=[batch, feature_len]
for x in inputs:
    # h0：代表当前时刻的语境信息shape=[batch, hidden_len]
    h0 = rnncell1(x, h0)
    h1 = rnncell2(h0, h1)

print('h1:', h1.shape)
'''
h1: torch.Size([3, 15])
'''

Original: https://blog.csdn.net/dgvv4/article/details/125424902
Author: 立Sir
Title: 【深度学习理论】(6) 循环神经网络 RNN

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530612/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Node.JS中调用JShaman，加密JS代码

在Node.JS环境中，调用JShaman的WebAPI接口，对JS代码进行混淆加密。效果如下：代码： //js代码 var js_…

人工智能 2023年6月26日
0087
Yolov3 模型结构

0. 模型总体结构： Yolov3可以看作有三部分：Darknet53, FPN, Yolo Head. Darknet53是Yolov3的主干网络，用来提取图像特征。共提取了三个…

人工智能 2023年7月27日
0063
计算机视觉：基本的图像操作和处理

目录一、计算机视觉和图像处理 1.1 什么是计算机视觉？ 1.2 什么是图像处理？ 1.3 计算机视觉和图像处理的关系二、图像处理工具包 2.1 PIL：Python图像处理类…

人工智能 2023年6月24日
0066
深度学习故障诊断之-使用条件生成对抗网络CGAN生成泵流量信号

开始填坑 MATLAB统计机器学习，深度学习，计算机视觉 – 哥廷根数学学派的文章 – 知乎 MATLAB统计机器学习，深度学习，计算机视觉 –…

人工智能 2023年6月16日
00134
【华为ICT大赛】华为云激活设备的方法以及数据上下行

先展示一下没有激活的时候在线调试的状态然后下面我将激活他，让他变为下面这个样子官方教程这里我从0演示一个产品的创建到MQTT.fx连接到云平台并且接收数据。进入华为云平台控制台然…

人工智能 2023年6月27日
00105
安装Anaconda 并创建 Python 虚拟环境

一、Anaconda下载打开Anaconda官网点击：https://www.anaconda.com/1.安装后，cmd 输入python 验证是否成功exit() 退出；…

人工智能 2023年7月6日
0051
调用讯飞平台应用商店技能完成人机交互功能（二）

主程序可以实现人机交互的功能。 [En] The main program can realize the function of human-computer interacti…

人工智能 2023年5月25日
0078
MATLAB（五）进阶绘图

文章目录前言特殊的Plots 对数Plots plotyy() yyaxis() histogram直方图 bar条形图 barh堆叠和水平条形图 Pie饼图 Polar极图 …

人工智能 2023年7月15日
0089
毕设题目：Matlab语音识别

1 案例背景随着计算机技术的快速发展,语音交互已经成为了一种十分重要的人机交互手段。而语音识别的准确性和语音合成的音质在很大程度上受到语音特征参数准确性的影响,因此对语音特征参数进…

人工智能 2023年5月25日
00109
普通话测试第四题评分标准_普通话等级考试《评分细则》.docx

湖北省普通话水平测试评分细则根据教育部、国家语言文字工作委员会发布的《普通话水平测试纲要》。 [En] According to the outline of the P…

人工智能 2023年5月27日
00115
chatGPT教你算法(6)——贪心算法

在计算机科学中，贪心算法是一种用来解决多阶段决策最优化问题的算法。它的名字来源于贪婪策略，即每一步都选择当前看来是最优的选择，而不考虑未来的影响。这种算法的优点在于它的简单性和速度…

人工智能 2023年7月31日
0045
【机器学习】梯度下降、岭回归、Lasso回归等

【机器学习】梯度下降、岭回归、Lasso回归等 0 简要复习线性回归（Linear Regression）线性回归模型函数：y ( x ) = β 0 + β 1 ∗ x 1 +…

人工智能 2023年6月17日
00106
U-Net实现医学图像分割(pytorch)

刚开始学习pytorch框架时候，在github上下载过大佬的图像分割代码来训练自己数据集，但是却经常报错。后面在kaggle上下载了一个比较简洁易理解的分割代码，又根据自己的需求…

人工智能 2023年7月21日
0077
TensorRT教程1：优化原理

TensorRT优化原理 TensorRT优化方法主要有以下几种方式，最主要的是前面两种。 ; 1、层间融合或张量融合—-在构建engine阶段完成算子融合（网络层合…

人工智能 2023年5月26日
0059
Python实验–线性回归+梯度下降预测波士顿房价

def preprocess(): # get the dataset of boston X = boston().data y = boston().target name_d…

人工智能 2023年6月16日
0089
【进阶篇】全流程学习《20天掌握Pytorch实战》纪实 | Day03 | 文本数据建模流程范例

💖作者简介：大家好，我是车神哥，府学路18号的车神🥇⚡About—> 车神：从寝室到实验室最快3分钟，最慢3分半（那半分钟其实是等红绿灯）📝个人主页：车手只需…

人工智能 2023年7月22日
0076

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【深度学习理论】(6) 循环神经网络 RNN

5.1 单层 RNN 实现

5.2 多层 RNN 实现

5.3 单层 RNNCell 实现

5.4 多层的 RNNCell 实现

大家都在看