RNN – LSTM－GRU

2023年5月28日上午6:28 • 人工智能 • 阅读 76

文章目录

前言
为什么引入ＲＮＮ？
RNN
*
1.RNN网络结构
２.RNN的两个主要应用
３.RNN的两个主要应用对应的不同的Loss
４.针对Loss进行反向传播
LSTM
总结

前言

为什么引入ＲＮＮ？

对于传统的神经网络来说，一般输入是不带有时间序列的，比如说输入学生身体的各个指标进行预测是否是是具有生长缓慢或者是快速的问题，这样的输入一般是固定的序列，并且之间是没有相互影响的。然而对于具有时间先后顺序的这些问题，比如说语音识别，生成语句等问题，这样的传统的神经网络并不能很好训练。

RNN

1.RNN网络结构

; ２.RNN的两个主要应用

一、用于建模表示句子
将句子通过RNN，在最后一个RNN隐藏层得到该句子的表示，其实就是类似于平常的得到一个特征向量。这里就是得到这个句子的表示的特征向量。
用途：得到一个句子的表示，我们可以后续使用判别器进行判别等。

二、用于表示句子的上下文
这个不同于上面的，这里是表示的句子的额外信息，得到句子的上下文信息。
用途：RNN表示句子的上下文信息，接下来可根据上下文使用语言模型预测下一个单词等。

３.RNN的两个主要应用对应的不同的Loss

对于这两种不同的应用，一个是在最后的RNN的隐藏层得到句子的表示，就是句子的特征向量。这个loss只用考虑最后的预测结果和真实的label之间的差距即可。
另一个是得到句子的上下文语义，在每一个RNN的隐藏层都是有输出的，这里的输出的loss都是要计算的，所以total loss是所有的loss加在一起。

４.针对Loss进行反向传播

我们以这张图为例，只考虑一个无偏差项的RNN，S０是固定值，没有激活函数。
前向传播：

而激活函数的图像是；
RNN - LSTM－GRU

可以看出ｔａｎｈ＇ｘ都是小于等于１的，则如果说：
ｗ取值０－１之间，ｔ很大的话，ｔａｎｈ’都小于等于１，则连乘多个ｔａｎｈ’ ＊ W就会越来越小，在越靠近输入层的权重就会几乎为０，也急速hi几乎不更新，这就是梯度消失。
ｗ取值很大，连乘多个ｔａｎｈ’ ＊ W就会趋向于无穷大，梯度过大没导致更新幅度过大，可能会溢出，无法收敛，这就是梯度爆炸。

; LSTM

总结

提示：这里对文章进行总结：

例如：以上就是今天要讲的内容，本文仅仅简单介绍了pandas的使用，而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

注释：这里的笔记是参考大神，大神讲解的十分透彻，自己学习了就想总总结自己以后经常来看，所以本文章不做任何的是商业用途，两个大神原文：
https://zhuanlan.zhihu.com/p/31781223

https://zhuanlan.zhihu.com/p/28687529

Original: https://blog.csdn.net/qq_45204129/article/details/123686057
Author: 码码姑娘
Title: RNN – LSTM－GRU

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/530227/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ConsensusClusterPlus，一步到位的一致性聚类！

欢迎关注”生信修炼手册”! 在之前的文章中分享了一致性聚类的原理，本文介绍下如何用R语言进行分析。ConsensusClusterPlus这个R包，就是专门…

人工智能 2023年5月31日
0098
用matlab画相频曲线_matlab 幅频特性相频特性代码,图片

由于问题不明确，以下提供基本步骤供参考： 1. 定义二阶系统的参数：角频率ω，阻尼比ζ，增益K。 2. 计算二阶系统的传递函数：H(s) = K/(s^2 + 2ζωs + ω^2…

人工智能 2023年6月18日
0078
python 皮尔森相关系数（Pearson）

文章目录一、概述二、定义 * 2.1 总体样本定义 2.2 估算样本定义 2.3 两种计算方式 2.4 皮尔森距离三、python 实现 * 3.1 生成随机数据集 3.2 …

人工智能 2023年7月29日
0075
【20220108】【雷达】毫米波雷达（二）—— 毫米波雷达和激光雷达的区别及优缺点比较

一、激光雷达激光雷达是一种采用非接触激光测距技术的扫描式传感器，其工作原理是通过发射激光光束来探测目标，通过搜集反射回来的光束形成点云获取数据，这些数据经过光电处理之后可生成精确…

人工智能 2023年6月2日
0082
无人驾驶汽车的相关技术,无人驾驶相关技术知识

无人驾驶涉及哪些技术无人驾驶汽车依靠人工智能、视觉计算、雷达、监控装置和全球定位系统协同合作，通过电脑实现无人驾驶，可以在没有任何人类主动的操作下，自动安全地操作机动车辆。无人…

人工智能 2023年6月25日
0099
入门机器学习（西瓜书+南瓜书）神经网络总结（python代码实现）

入门机器学习（西瓜书+南瓜书）神经网络总结（python代码实现）一、神经网络 1.1 通俗理解这次的内容较难理解，因此，笔者尽量通过通俗易懂的话来说说究竟什么是神经网络？他是…

人工智能 2023年7月13日
0081
机器学习中的数学——距离定义（一）：欧几里得距离（Euclidean Distance）

分类目录：《机器学习中的数学》总目录相关文章：· 距离定义：基础知识· 距离定义（一）：欧几里得距离（Euclidean Distance）· 距离定义（二）：曼哈顿距离（Manh…

人工智能 2023年6月13日
0074
恒源云(GPUSHARE)_语音识别与语义处理领域之[机器翻译] 21.7 mRASP2

人工智能 2023年5月23日
0078
【opencv】基于opencv实现人脸识别，原理&代码部分

上一部分我们解决了环境问题，这一部分我们可以开始上代码，环境没有配好的可以参照上一篇博客：环境搭建解决：下面先说一下原理：一.原理部分本文基于opencv来实现人脸识别，大致…

人工智能 2023年6月18日
00112
transformer学习之Mask

transformer学习之Mask mask作用直译：面具在Transformer中mask的作用有两个：处理输入中序列长度不等的问题防止模型在预测时提前知道未来的信息 …

人工智能 2023年5月30日
0046
Apollo6.0轨迹预测算法分析

分析 Apollo6.0轨迹预测模块里面所使用的方法，主要是 evaluator和 predictor两个模块中的函数，分析里面每个函数的作用和输入输出。最好配合代码食用 Apol…

人工智能 2023年6月2日
0082
计算机视觉-图像的傅里叶变换

😊😊😊 欢迎来到本博客😊😊😊本次博客内容将继续讲解关于OpenCV的相关知识🎉 作者简介：⭐️⭐️⭐️ 目前计算机研究生在读。主要研究方向是人工智能和群智能算法方向。目前熟悉pyt…

人工智能 2023年6月26日
00100
使用“Opencv“时遇到terminate called after throwing an instance of ‘cv::Exception‘问题的解决方案

使用”Opencv”时遇到terminate called after throwing an instance of ‘cv::Excepti…

人工智能 2023年6月18日
00184
过拟合是否与数据噪声有关

问题介绍过拟合（overfitting）是机器学习中一个常见的问题，指的是模型在训练数据上表现良好，但在新数据上表现较差的情况。一个可能导致过拟合的因素是数据噪声（data no…

人工智能 2023年12月30日
0035
2021-2027年中国智能台灯行业市场研究及前瞻分析报告

【报告类型】产业研究【报告价格】¥4500起【出版时间】即时更新（交付时间约3个工作日）【发布机构】智研瞻产业研究院【报告格式】PDF版本报告介绍了中国智能台灯行业市场行…

人工智能 2023年7月17日
0064
【翻译】类别不均衡分类下的阈值移动介绍

原文地址： https://machinelearningmastery.com/threshold-moving-for-imbalanced-classification/ 简…

人工智能 2023年7月1日
0087

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31