LSTM 简介

2023年6月16日下午2:42 • 人工智能 • 阅读 107

LSTM

长短期记忆网络 LSTM（long short-term memory）是 RNN 的一种变体，其核心概念在于细胞状态以及”门”结构。细胞状态相当于信息传输的路径，让信息能在序列连中传递下去。你可以将其看作网络的”记忆”。理论上讲，细胞状态能够将序列处理过程中的相关信息一直传递下去。因此，即使是较早时间步长的信息也能携带到较后时间步长的细胞中来，这克服了短时记忆的影响。信息的添加和移除我们通过”门”结构来实现，”门”结构在训练过程中会去学习该保存或遗忘哪些信息。

遗忘门：决定应丢弃或保留哪些信息。来自 前一个隐藏状态的信息和 当前输入的信息同时传递到 sigmoid 函数中去，输出值介于 0 和 1 之间，越接近 0 意味着越应该丢弃，越接近 1 意味着越应该保留

f t = σ ( W f ⋅ [ h t − 1 , x t ] + b f ) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f)f t =σ(W f ⋅[h t −1 ,x t ]+b f )

输入门：输入门用于更新细胞状态。首先将 前一层隐藏状态的信息和 当前输入的信息传递到 sigmoid 函数中去。将值调整到 0~1 之间来决定要更新哪些信息。0 表示不重要，1 表示重要。其次还要将前一层隐藏状态的信息和当前输入的信息传递到 tanh 函数中去， 创造一个新的侯选值向量。最后将 sigmoid 的输出值与 tanh 的输出值相乘，sigmoid 的输出值将决定 tanh 的输出值中哪些信息是重要且需要保留下来的

i t = σ ( W i ⋅ [ h t − 1 , x t ] + b i ) C t ~ = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) \ \tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C)i t =σ(W i ⋅[h t −1 ,x t ]+b i )C t ~=tanh (W C ⋅[h t −1 ,x t ]+b C )

细胞状态：前一层的细胞状态与遗忘向量 逐点相乘。如果它乘以接近 0 的值，意味着在新的细胞状态中，这些信息是需要丢弃掉的。然后再将该值与输入门的输出值 逐点相加，将神经网络发现的新信息更新到细胞状态中去。至此，就得到了更新后的细胞状态

C t = f t ⨀ C t − 1 + i t ⨀ C t ~ 注： ⨀ 为 H a d a m a r d p r o d u c t ，即对应点相乘 C_t = f_t \bigodot C_{t-1} + i_t \bigodot \tilde{C_t} \ 注：\bigodot 为 \ Hadamard \ product，即对应点相乘C t =f t ⨀C t −1 +i t ⨀C t ~注：⨀为H a d a m a r d p r o d u c t ，即对应点相乘

输出门：输出门用来确定下一个隐藏状态的值，隐藏状态包含了先前输入的信息。首先，我们将 前一个隐藏状态和当前输入传递到 sigmoid 函数中，然后将新得到的 细胞状态传递给 tanh 函数。最后将 tanh 的输出与 sigmoid 的输出相乘，以确定隐藏状态应携带的信息。再将隐藏状态作为当前细胞的输出，把新的细胞状态和新的隐藏状态传递到下一个时间步长中去

o t = σ ( W o ⋅ [ h t − 1 , x t ] + b o ) h t = o t ⨀ tanh ⁡ ( C t ) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) \ h_t = o_t \bigodot \tanh(C_t)o t =σ(W o ⋅[h t −1 ,x t ]+b o )h t =o t ⨀tanh (C t )

; LSTM 变体

Peephole LSTM

f t = σ ( W f ⋅ [ C t − 1 , h t − 1 , x t ] + b f ) i t = σ ( W i ⋅ [ C t − 1 , h t − 1 , x t ] + b i ) C t ~ = tanh ⁡ ( W C ⋅ [ h t − 1 , x t ] + b C ) C t = f t ⨀ C t − 1 + ( 1 − f t ) ⨀ C t ~ o t = σ ( W o ⋅ [ C t , h t − 1 , x t ] + b o ) h t = o t ⨀ tanh ⁡ ( C t ) f_t = \sigma(W_f \cdot [C_{t-1}, h_{t-1}, x_t] + b_f) \ i_t = \sigma(W_i \cdot [C_{t-1}, h_{t-1}, x_t] + b_i) \ \tilde{C_t} = \tanh(W_C \cdot [h_{t-1}, x_t] + b_C) \ C_t = f_t \bigodot C_{t-1} + (1 – f_t) \bigodot \tilde{C_t} \ o_t = \sigma(W_o \cdot [C_t, h_{t-1}, x_t] + b_o) \ h_t = o_t \bigodot \tanh(C_t)f t =σ(W f ⋅[C t −1 ,h t −1 ,x t ]+b f )i t =σ(W i ⋅[C t −1 ,h t −1 ,x t ]+b i )C t ~=tanh (W C ⋅[h t −1 ,x t ]+b C )C t =f t ⨀C t −1 +(1 −f t )⨀C t ~o t =σ(W o ⋅[C t ,h t −1 ,x t ]+b o )h t =o t ⨀tanh (C t )

GRU

z t = σ ( W z ⋅ [ h t − 1 , x t ] + b z ) r t = σ ( W r ⋅ [ h t − 1 , x t ] + b r ) h t ~ = tanh ⁡ ( W h ⋅ [ r t ⨀ h t − 1 , x t ] , b h ) h t = ( 1 − z t ) ⨀ h t − 1 + z t ⨀ h t ~ z_t = \sigma(W_z \cdot [h_{t-1}, x_t] + b_z) \ r_t = \sigma(W_r \cdot [h_{t-1}, x_t] + b_r) \ \tilde{h_t} = \tanh(W_h \cdot [r_t \bigodot h_{t-1}, x_t], b_h) \ h_t = (1 – z_t) \bigodot h_{t-1} + z_t \bigodot \tilde{h_t}z t =σ(W z ⋅[h t −1 ,x t ]+b z )r t =σ(W r ⋅[h t −1 ,x t ]+b r )h t ~=tanh (W h ⋅[r t ⨀h t −1 ,x t ],b h )h t =(1 −z t )⨀h t −1 +z t ⨀h t ~
注：一般这里可以不用考虑偏置，原论文中也没有偏置

; LSTM 简单例子

import torch
import torch.nn as nn

rnn = nn.LSTM(10, 20, 2)
input = torch.randn(5, 3, 10)
h0 = torch.randn(2, 3, 20)
c0 = torch.randn(2, 3, 20)

output, (hn, cn) = rnn(input, (h0, c0))

print(output.size(), hn.size(), cn.size())

补充：RNN, LSTM & GRU、pytorch中lstm参数与案例理解、LSTM这一篇就够了、从RNN到LSTM再到GRU、LSTM论文翻译-《Understanding LSTM Networks》、Convolutional LSTM Network

Original: https://blog.csdn.net/steven_ysh/article/details/121964724
Author: Lemon_Yam
Title: LSTM 简介

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/624790/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

FPGA实现视频拼接，纯逻辑资源搭建，提供4套工程源码和技术支持

目录 1.本方案的实用价值 2.总体设计方案 3.视频拼接方案算法 4.工程1：单路视频输出 5.工程2：2路视频拼接输出 6.工程3：3路视频拼接输出 7.工程4：4路视频拼接输…

人工智能 2023年7月29日
0074
FPGA图像处理-3×3卷积模板

简介卷积是图像处理中很常见的一种操作，3×3是最常见的窗口大小。这里要注意，输入像素此时作为第三行数据输入3×3窗口，最下面的行缓存输出的才是第一行像素，上…

人工智能 2023年6月17日
0065
opencv-gpu 编译 python使用 win

踩坑血泪史主要参考：https://thinkinfi.com/install-opencv-gpu-with-cuda-for-windows-10/ 注意事项： 1、需要使用…

人工智能 2023年7月20日
0054
线性分类器（Linear Classifier）

线性分类器如上图所示，这是二维空间中的一个数据集，如果他正好能够被一条直线分成两类，那么我们称它为线性可分数据集，这条直线就是一个线性分类器。在三维空间中，如果数据集线性可分…

人工智能 2023年6月15日
0093
高斯过程回归（Gaussian Process Regression）

在概率论和统计学中，高斯过程是指观测发生在连续域（例如：时域、空间域）中的一种特殊的概率模型 ; 1 基本概念在高斯过程，连续的输入空间的任何点与正态分布的随机变量相关，而且任何…

人工智能 2023年6月17日
00107
刷题记录:洛谷P4147玉蟾宫

题目描述: 这片土地被分成 N × M N\times M N ×M 个格子，每个格子里写着 ‘R’ 或者 ‘F’，R 代表这块土地…

人工智能 2023年6月29日
0055
数据璐SQL零基础入门教程学习第七天主知识点六：子查询

主知识点六：子查询【知识点引入】到这里我们已经把sql的主要子句学完啦，接下来就是sql语法的进阶学习首先是造就了sql语句千变万化的子查询子查询本身就是一个完整的查询语句…

人工智能 2023年6月11日
0085
STM32深度学习实战

STM32深度学习实战 1. 前言本文主要记录基于 tensorflow 的简单模型在 stm32 上运行测试的调试记录，开发人员应对深度学习基础理论和 tensorflow…

人工智能 2023年5月25日
0059
hanlp安装

HanLP是由一系列模型与算法组成的工具包，目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点；提供词法分析（中文分词、…

人工智能 2023年5月27日
0073
卷积神经网络resent网络实践

文章目录 * – 前言 – 一、技术介绍 – 二、实现途径 – 三、总结前言上篇文章，讲了经典卷积神经网络-resnet，这篇文…

人工智能 2023年7月27日
0062
LeNet识别MNIST数据集

文章目录 1.什么是LeNet模型 2.导入数据包 3.加载图片，并显示第一张图片的尺寸 4.显示前十张数字 5.构造LeNet网络 6.精确函数 7.训练数据总结以上训练结果…

人工智能 2023年7月2日
0093
基于深度学习的木薯叶片病害识别与检测

根据联合国粮食及农业组织（FAO），农业是世界总人口约60%的主要生计来源。发展中国家的经济完全依赖农产品。随着世界人口以更快的速度增长，对粮食的需求也在急剧上升。最近几天，农业正…

人工智能 2023年7月13日
0050
机器学习（周志华）第九章聚类

关于周志华老师的《机器学习》这本书的学习笔记记录学习过程本博客记录Chapter9 文章目录 1 聚类任务 2 性能度量 3 距离计算 4 原型聚类 * 4.1 k均值算法 4.2…

人工智能 2023年6月2日
0070
最小二乘支持向量机–LSSVM分类及MATLAB代码实现

最小二乘支持向量机–LSSVM分类及MATLAB代码实现文章目录最小二乘支持向量机–LSSVM分类及MATLAB代码实现 1. LSSVM算法原理 * 1.1 支持…

人工智能 2023年7月2日
0090
opencv圆形网格提取函数findCirclesGrid源码笔记

opencv–findCircle源码笔记函数处理流程源码分析 * findCirclesGrid源码 findCirclesGrid2 函数源码 – …

人工智能 2023年6月18日
0072
【原创】基于TensorFlow2识别人是否配戴眼镜的研究

随着时代的发展，电子产品种类越来越丰富，方便我们日常生活的同时，也造成了越来越多人面临近视问题，为更快速准确地统计人群的戴眼镜率，本文基于TensorFlow2，先运用爬虫爬取到了…

人工智能 2023年7月20日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

LSTM 简介

; LSTM 变体

Peephole LSTM

GRU

; LSTM 简单例子

大家都在看