LSTM模型预测新冠

2023年6月15日上午4:35 • 人工智能 • 阅读 127

LSTM是RNN的 改进型，传统RNN模型会随着时间区间的增长，对早期的因素的权重越来越低，有可能会损失重要数据。而LSTM模型通过遗忘门、输入门、输出门三个逻辑，来筛选和保留数据。
原理详解可以参考如何从RNN起步，一步一步通俗理解LSTM这个博主讲的非常通俗易懂，本文主要是项目实操。

实验环境

Windows11、python3.8、Keras框架、Tensorflow

实验目的

使用新冠疫情历史 每日新增感染人数数据训练LSTM模型，然后用此模型预测未来21天每日新增感染人数，这里将对数据集进行一阶差分以保证数据平稳性（根据数据具体情况处理）

数据归一化

为了加快模型收敛速度，这里将对实验数据进行归一化，本文使用sklearn库中的MinMaxScaler方法，将实验数据压缩到0到1之间

from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler(feature_range=(0, 1))
dataset_sc = scaler.fit_transform(temp)

制作时间滑动窗口

由于LSTM模型输入数据格式的要求，使用LSTM模型需要制作时间滑动窗口，如下图

上图即使一个时间窗口，含义为用前10天的历史数据预测后一天的值，而预测值作为验证数据，用以计算预测值与真实值的误差。
但实际上我们不止11个数据，我们有上百个数据，所以得让时间窗口滑动起来，如下图所示
LSTM模型预测新冠

时间滑动窗口制作代码如下


def create_dataset(dataset, timestep ):
    dataX, dataY = [], []
    for i in range(len(dataset)-timestep -1):
        a = dataset[i:(i+timestep )]
        dataX.append(a)
        dataY.append(dataset[i + timestep])
    return np.array(dataX),np.array(dataY)
timestep  = 10
trainX1,trainY1  = create_dataset(dataset_sc,timestep )

trainX = np.reshape(trainX1, (trainX1.shape[0], trainX1.shape[1], 1))

构建模型并训练

本文使用单层LSTM层，并加上一层Dropout层防止过拟合。使用MSE作为损失函数，MAPE作为评价指标，模型构建代码如下

from keras.models import Sequential
from keras.layers import LSTM,Dense,Dropout
import tensorflow as tf
from sklearn import metrics

units =30
rate=0.3
epochs=590
batch_size=64
optimizer=tf.keras.optimizers.Adam(learning_rate=0.01)
model = Sequential()
model.add(LSTM(units = units,activation='tanh', input_shape = (None,1)))
model.add(Dropout(rate=rate))
model.add(Dense(units = 1,activation='linear'))
model.compile(loss='mean_squared_error', optimizer=optimizer,metrics='mape')
model.fit(trainX, trainY1, epochs=epochs, batch_size=batch_size, verbose=1)

对训练结果和预测结果进行可视化

train_pre=model.predict(trainX)
plt.figure(figsize=(15, 8))
train_pre=scaler.inverse_transform(train_pre)
trainY1_pre=scaler.inverse_transform(trainY1)
plt.plot(range(496),trainY1_pre,range(496),train_pre)
plt.legend(['true','pre'])

训练数据集的预测结果如下图

截取前100个数据进行放大观察

预测未来

首先我们要知道，这个时间窗口只能往后预测 一个值，但是本文的目的是预测未来 21天的值。目前有多种方法，一种是seq2seq，顾名思义直接用一段序列预测 下一段序列，但是本文采用 迭代预测法，即将预测出来的值，又作为下一个时间窗口的输入值，以此来迭代预测，如下图所示

代码如下：


test_data=diff2[-timestep-pre_day:-pre_day]
test_data=np.array(test_data)
test_data = test_data.astype('float32')
li_test=list(test_data.reshape(timestep))
for i in range(pre_day):
    temp=np.array(li_test[-timestep:]).reshape(timestep,1)
    test_data2 = scaler.fit_transform(temp)
    test_data3=test_data2.reshape(1,timestep,1)
    re1=model.predict(test_data3)
    re2=scaler.inverse_transform(re1)
    li_test.append(float(re2))

这段代码因为涉及到数据类型的转化，可能比较难以理解，如有不懂，可在评论区留言。

测试集结果如下

由于模型参数没有讨论，所以看起来预测结果比较差，但通过调参后（本文采用网格搜索），结果会好很多

实验结果

最后通过调参调整模型，并对结果进行反差分，得到的未来21天每日新增感染人数预测值与真实值结果如下图：

正方形虚线为真实值，三角形实线为预测值

Original: https://blog.csdn.net/m0_53115174/article/details/124504146
Author: 青石横刀策马
Title: LSTM模型预测新冠

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/613679/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

2021 年年度最佳开源软件

Svelte https://svelte.dev/ Svelte 是一种全新的构建用户界面的方法。传统框架如 React 和 Vue 在浏览器中需要做大量的工作，而 Svelte…

人工智能 2023年7月30日
0081
TensorFlow模型的保存与加载（二）——pb模式【源码】

如果本文对您有帮助，欢迎点赞支持！目录前言 1、TF模型保存方法 2、pb模式 3、适合保存模型的时机一、保存模型 1、定义简单网络模型 2、保存网络模型为pb文件二、加载…

人工智能 2023年5月26日
00143
修改conda环境名称

进行conda操作时，可能要创建新的环境，但名称与现有环境有冲突，安装的包有一定差别，或是前期环境命名比较随便。此时要对现有环境进行重命名，有两种方法可以采用。 1.创建新的环境并…

人工智能 2023年7月6日
00101
【论文阅读】Hierarchical Multi-modal Contextual Attention Network for Fake News Detection — 虚假新闻检测，多模态

本博客系本人阅读该论文后根据自己理解所写，非逐句翻译，欲深入了解该论文，请参阅原文。论文标题：Hierarchical Multi-modal Contextual Attent…

人工智能 2023年7月3日
0091
大数据毕设选题 – 深度学习口罩佩戴检测系统（python opemcv yolo）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

人工智能 2023年6月16日
00104
DataFrame基本操作

其实代码就是按照人的思维编写的底层，所有的函数都是按照人类的认知定义的。 1、读取表，设置类索引和行索引 2、格式化函数 .format() 3、日期的转化函数（import ti…

人工智能 2023年7月7日
00115
【论文分享】不平衡网络流量分类方法 TA-GAN:GAN basedTraffic Augmentation for Imbalanced Network Traffic Classification

TA-GAN: GAN based Traffic Augmentation for Imbalanced Network Traffic Classification摘要：本文提…

人工智能 2023年7月3日
00114
K8s 开始

Kubernetes 是用于自动部署，扩展和管理容器化应用程序的开源系统。本文将介绍如何快速开始 K8s 的使用。了解 K8s Kubernetes / Overview 搭建 …

人工智能 2023年6月4日
00121
CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and Dual Norm

CVPR2022:Generalizable Cross-modality Medical Image Segmentation via StyleAugmentation and…

人工智能 2023年7月28日
0087
手写数字识别及python实现

目录 1、总体流程 2、代码实现下载数据集确定激活函数、损失函数、计算梯度函数等神经网络的搭建模型的训练与验证测试模型的泛化能力 1、总体流程 step1：下载数据集、读…

人工智能 2023年7月4日
0099
调参神器optuna学习笔记

介绍 optuna作为调参工具适合绝大多数的机器学习框架，sklearn，xgb，lgb，pytorch等。主要的调参原理如下：1 采样算法利用 suggested 参数值和评估…

人工智能 2023年6月16日
00138
Pandas GroupBy数据分组处理

分组运算，一般都是根据某个（些）条件将数据进行分组，然后对每个分组数据进行操作，然后合并这些分组或每个分组单独输出。分组可以在行的方向上，也可以在列的方向上。注意：空值会被过滤。…

人工智能 2023年6月11日
00132
【CV-Learning】图像分类

什么是图像分类任务？图像分类任务是计算机视觉中的核心任务，其目标是根据图像信息中所反映的不同特征，把不同类别的图像区分开来。具体来说，就是从已知的类别标签集合中为给定的输入图片选…

人工智能 2023年7月2日
00116
古诗词相关词库

相关词库 1、人名语料库：https://github.com/wainshine/Chinese-Names-Corpuswainshine/Chinese-Names-Corp…

人工智能 2023年6月1日
00100
逻辑回归（Logistic Regression）

入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、逻辑回归简介与用途二、逻辑回归的理论推导 1、问题描述和转化 …

人工智能 2023年6月12日
00118
一文了解社区发现算法

最近在调研社区发现图聚类在区域划分中的应用，将一些编辑汇总的信息记录如下。社团划分了解社区是什么在社交网络中，用户相当于每一个点，用户之间通过互相的关注关系构成了整个网络的结…

人工智能 2023年6月2日
00133

2024 年 6 月
一	二	三	四	五	六	日
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30