基于LSTM算法的股票预测

2023年5月23日下午3:54 • 人工智能 • 阅读 96

基于LSTM算法的股票预测

*
– 一、LSTM基本原理
–
+ 1.长短期记忆(LSTM)
– 二、LSTM预测股票走势
–
+ 1.导入相关库文件
+ 2.从oss2下载并解压数据集
+
* （1）关于oss的学习
* （2）具体代码及注释
+ 3.解压数据
+
* （1）关于解压命令
* （2）关于!rm -rf __MACOSX
* （3）具体代码及相关注释
+ 4.导入数据可视化
+
* （1）df.info():
* （2）head()函数的观察读取的数据
* （3）使用describe观察数据的分布情况
* （4）可视化选取的相关指标
+ 5.数据的预处理
+
* （1）数据集划分比例
* （2）定义最小最大值归一化函数
* （3）划分数据集
* （4）去除冗余指标并显示训练集的有效指标
* （5）归一化并查看训练集，验证集，测试集的大小
* （6）对指标数据可视化
+ 6.RNN建模-LSTM/GRU
+
* （1）对训练数据随机化处理
* （2）定义超参
* （3）定义网络结构
* （4）开始训练
+ 7.模型预测
+
* （1）模型的预测
* （2）预测结果可视化
+ 三、数据集与实验环境
+
* （1）数据集下载链接
* （2）环境配置
+ 四、总结
+ 1.混淆矩阵
+ 2.续前文LeNet5股票预测

一、LSTM基本原理

1.长短期记忆(LSTM)

LSTM是一种循环神经网络(RNN)，可学习时间步长序列和数据之间的长期依赖关系，与CNN不同，LSTM可以记住预测之间的网络状态。
LSTM适用于序列和时序数据分类，此时必须基于记忆的数据点序列进行网络预测或输出。股票是随着时间变化的，恰好可以用LSTM。

二、LSTM预测股票走势

1.导入相关库文件


import numpy as np
import pandas as pd
import math
import sklearn
import sklearn.preprocessing
import datetime
import os
import matplotlib.pyplot as plt
import tensorflow as tf

2.从oss2下载并解压数据集

（1）关于oss的学习

oss_getenv()用于获取环境变量的值（存在），否则返回默认值

获取环境变量，或设置类似“

[En]

Get the environment variable, or set something such as “

（2）具体代码及注释


import oss2
access_key_id = os.getenv('OSS_TEST_ACCESS_KEY_ID','LTAI4G1MuHTUeNrKdQEPnbph')
access_key_secret = os.getenv('OSS_TEST_ACCESS_KEY_SECRET','m1ILSoVqcPUxFFDqer4tKDxDkoP1ji')
bucket_name = os.getenv('OSS_TEST_BUCKET','mldemo')
endpoint = os.getenv('OSS_TEST_ENDPOINT','https://oss-cn-shanghai.aliyuncs.com')

bucket = oss2.Bucket(oss2.Auth(access_key_id,access_key_secret),endpoint,bucket_name)

bucket.get_object_to_file('data/c12/stock_data.zip','stock_data.zip')

3.解压数据

（1）关于解压命令

unzip命令常用参数
-l：显示压缩文件内所包含的文件；
-t：检查压缩文件是否正确；
-o：不必先询问用户，unzip执行后覆盖原有的文件；
·-n：解压缩时不要覆盖原有的文件；

-q：执行时不显示任何信息；

-d

（2）关于!rm -rf __MACOSX

rm -rf * 删除当前目录下的所有文件

压缩文件夹里边的 __MACOSX是缓存文件，可以直接删除掉

__MACOSX的由来

Mac在压缩文件时会往里面写入MetaData，这样做的目的是为了方便其他的Mac用户使用，就想Windows会在图片目录中加入的Thumbs.db，以方便显示预览图一样

这些MetaData产生的文件就是 __MACOSX，本身这些文件在Mac上是隐藏属性的，也确实方便了Mac用户

但在Windows中 __MACOSX就成了”缓存文件”或垃圾文件，只有在Windows系统才能看到，Mac不可见

所以，当我们打开压缩文件的时候，如果出现 __MACOSX，直接删除即可，不会对你的文件有任何影响

（3）具体代码及相关注释


!unzip -o -q stock_data.zip

!rm -rf __MACOSX

!ls stock_data -ilht

4.导入数据可视化

（1）df.info():

本文主要介绍了数据集的每一列的数据类型，是否为空，以及内存使用情况。

[En]

This paper mainly introduces the data type of each column of the dataset, whether it is null or not, and the memory usage.


df = pd.read_csv("./stock_data/sh300index.csv",index_col = 0)

df.info()

运行结果

（2）head()函数的观察读取的数据


df.head()

运行结果：

（3）使用describe观察数据的分布情况


df.describe()

运行结果：

（4）可视化选取的相关指标

plt.figure(figsize=(15,5));
plt.subplot(2,1,1);
plt.plot(df.open.values,color='red',label='open')
plt.plot(df.close.values,color='green',label='close')
plt.plot(df.low.values,color='blue',label='low')
plt.plot(df.high.values,color='black',label='high')
plt.title('stock price')
plt.xlabel('time [days]')
plt.ylabel('price')

plt.legend(loc = 'best')

plt.subplot(2,1,2)
plt.plot(df.vol.values,color='black',label='volume')
plt.title('stock volume')
plt.xlabel('time [days]')
plt.ylabel('volume')
plt.legend(loc = 'best')
plt.show()

运行结果：
上图显示了该股四个指标随时间的趋势图，下图显示了一段时间内股票交易量的趋势图。可以看出，当股价下跌时，股票交易量减少。

[En]

The chart above shows the trend graph of the four indicators of the stock over time, while the picture below shows the trend chart of the stock trading volume over time. It can be seen that when the stock price falls, the stock trading volume decreases.

5.数据的预处理

（1）数据集划分比例

按照80%数据集，10%划分验证集，10%测试集对数据集进行划分。


valid_set_size_percentage = 10
test_set_size_percentage = 10

（2）定义最小最大值归一化函数


def normalize_data(df):
    min_max_scaler = sklearn.preprocessing.MinMaxScaler()
    df['open'] = min_max_scaler.fit_transform(df.open.values.reshape(-1,1))
    df['high'] = min_max_scaler.fit_transform(df.high.values.reshape(-1,1))
    df['low'] = min_max_scaler.fit_transform(df.low.values.reshape(-1,1))
    df['high'] = min_max_scaler.fit_transform(df['close'].values.reshape(-1,1))
    return df

（3）划分数据集


def load_data(stock,seq_len):
    data_raw = stock.to_numpy()
    data = []

    for index in range(len(data_raw)-seq_len):
        data.append(data_raw[index: index+seq_len])

    data = np.array(data);
    valid_set_size = int(np.round(valid_set_size_percentage/100*data.shape[0]));
    test_set_size = int(np.round(test_set_size_percentage/100*data.shape[0]));
    train_set_size = data.shape[0] - (valid_set_size + test_set_size);

    x_train = data[:train_set_size,:-1,:]
    y_train = data[:train_set_size,-1,:]

    x_valid = data[train_set_size:train_set_size+valid_set_size,:-1,:]
    y_valid = data[train_set_size:train_set_size+valid_set_size,-1,:]

    x_test = data[train_set_size+valid_set_size:,:-1,:]
    y_test = data[train_set_size+valid_set_size:,-1,:]

    return [x_train,y_train,x_valid,y_valid,x_test,y_test]

（4）去除冗余指标并显示训练集的有效指标


df_stock = df.copy()
df_stock.drop(['vol'],1,inplace=True)
df_stock.drop(['lastclose'],1,inplace=True)
df_stock.drop(['label'],1,inplace=True)
df_stock.drop(['ZTM:ma5'],1,inplace=True)
df_stock.drop(['ZTM:ma7'],1,inplace=True)
df_stock.drop(['ZTM:ma10'],1,inplace=True)
df_stock.drop(['ZTM:ma21'],1,inplace=True)
df_stock.drop(['holdingvol'],1,inplace=True)
df_stock.drop(['ZTM:MACD'],1,inplace=True)
df_stock.drop(['ZTM:RSI'],1,inplace=True)

df_stock.head()

运行结果：

（5）归一化并查看训练集，验证集，测试集的大小

df_stock_norm = normalize_data(df_stock)

seq_len = 20
x_train, y_train, x_valid,y_valid,x_test,y_test = load_data(df_stock_norm,seq_len)
print('x_train.shape =',x_train.shape)
print('y_train.shape =',y_train.shape)
print('x_valid.shape =',x_valid.shape)
print('y_valid.shape =',y_valid.shape)
print('x_test.shape =',x_test.shape)
print('y_test.shape =',y_test.shape)

运行结果：

（6）对指标数据可视化


plt.figure(figsize=(15, 6));
plt.plot(df_stock_norm.open.values,color='red',label='open')
plt.plot(df_stock_norm.close.values,color='green',label='close')
plt.plot(df_stock_norm.low.values,color='blue',label='low')
plt.plot(df_stock_norm.high.values,color='black',label='high')
plt.title('stock')
plt.xlabel('time [days]')
plt.ylabel('normalized price/volume')
plt.legend(loc='best')
plt.show()

运行结果：

6.RNN建模-LSTM/GRU

（1）对训练数据随机化处理


index_in_epoch = 0;
perm_array = np.arange(x_train.shape[0])
np.random.shuffle(perm_array)

def get_next_batch(batch_size):
    global index_in_epoch,x_train,perm_array
    start = index_in_epoch
    index_in_epoch += batch_size

    if index_in_epoch > x_train.shape[0]:
        np.random.shuffle(perm_array)
        start = 0
        index_in_epoch = batch_size

    end = index_in_epoch
    return x_train[perm_array[start:end]],y_train[perm_array[start:end]]

（2）定义超参


n_steps = seq_len-1

n_inputs = 4
n_neurons =200

n_outputs = 4

n_layers = 2

learning_rate =0.001

batch_size = 50

n_epochs = 20

train_set_size = x_train.shape[0]

test_set_size = x_test.shape[0]

（3）定义网络结构


tf.reset_default_graph()

X = tf.placeholder(tf.float32, [None, n_steps, n_inputs])
y = tf.placeholder(tf.float32, [None, n_outputs])

layers = [tf.contrib.rnn.GRUCell(num_units=n_neurons, activation=tf.nn.leaky_relu)
         for layer in range(n_layers)]

multi_layer_cell = tf.contrib.rnn.MultiRNNCell(layers)
rnn_outputs, states = tf.nn.dynamic_rnn(multi_layer_cell, X, dtype=tf.float32)

stacked_rnn_outputs = tf.reshape(rnn_outputs, [-1, n_neurons])
stacked_outputs = tf.layers.dense(stacked_rnn_outputs, n_outputs)
outputs = tf.reshape(stacked_outputs, [-1, n_steps, n_outputs])
outputs = outputs[:,n_steps-1,:]

loss = tf.reduce_mean(tf.square(outputs - y))
optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)
training_op = optimizer.minimize(loss)

（4）开始训练


with tf.Session() as sess:
    sess.run(tf.global_variables_initializer())
    for iteration in range(int(n_epochs*train_set_size/batch_size)):
        x_batch, y_batch = get_next_batch(batch_size)
        sess.run(training_op, feed_dict={X: x_batch, y: y_batch})
        if iteration % int(5*train_set_size/batch_size) == 0:
            mse_train = loss.eval(feed_dict={X: x_train, y: y_train})
            mse_valid = loss.eval(feed_dict={X: x_valid, y: y_valid})
            print('%.2f epochs: MSE train/valid = %.6f/%.6f'%(
                iteration*batch_size/train_set_size, mse_train, mse_valid))

    y_train_pred = sess.run(outputs, feed_dict={X: x_train})
    y_valid_pred = sess.run(outputs, feed_dict={X: x_valid})
    y_test_pred = sess.run(outputs, feed_dict={X: x_test})

运行结果：
可以看出，训练集的均方误差损失已经减少到0.000032，验证集的均方误差已经减少到0.000022。

[En]

It can be seen that the mean square error loss of the training set has been reduced to 0.000032 and the mean square error of the verification set has been reduced to 0.000022.

7.模型预测

（1）模型的预测

ft = 0

plt.figure(figsize=(15, 5));
plt.subplot(1,2,1);

plt.plot(np.arange(y_train.shape[0]), y_train[:,ft], color='blue', label='train target')

plt.plot(np.arange(y_train.shape[0], y_train.shape[0]+y_valid.shape[0]), y_valid[:,ft],
         color='gray', label='valid target')

plt.plot(np.arange(y_train.shape[0]+y_valid.shape[0],
                   y_train.shape[0]+y_test.shape[0]+y_test.shape[0]),
         y_test[:,ft], color='black', label='test target')

plt.plot(np.arange(y_train_pred.shape[0]),y_train_pred[:,ft], color='red',
         label='train prediction')

plt.plot(np.arange(y_train_pred.shape[0], y_train_pred.shape[0]+y_valid_pred.shape[0]),
         y_valid_pred[:,ft], color='orange', label='valid prediction')

plt.plot(np.arange(y_train_pred.shape[0]+y_valid_pred.shape[0],
                   y_train_pred.shape[0]+y_valid_pred.shape[0]+y_test_pred.shape[0]),
         y_test_pred[:,ft], color='green', label='test prediction')

plt.title('past and future stock prices')
plt.xlabel('time [days]')
plt.ylabel('normalized price')
plt.legend(loc='best');

plt.subplot(1,2,2);

plt.plot(np.arange(y_train.shape[0], y_train.shape[0]+y_test.shape[0]),
         y_test[:,ft], color='black', label='test target')

plt.plot(np.arange(y_train_pred.shape[0], y_train_pred.shape[0]+y_test_pred.shape[0]),
         y_test_pred[:,ft], color='green', label='test prediction')

plt.title('future stock prices')
plt.xlabel('time [days]')
plt.ylabel('normalized price')
plt.legend(loc='best');

（2）预测结果可视化

左图：红色曲线为训练集的预测结果，橙色为验证集的预测结果，绿色为测试集的预测结果，右图显示了预测结果与测试集真实值的拟合关系。我们可以看到，拟合效果非常好。

[En]

Left: the red curve is the prediction result of the training set, orange is the prediction result of the verification set, green is the prediction result of the test set, and the figure on the right shows the fitting relationship between the prediction result and the real value of the test set. we can see that the fitting effect is very good.

; 三、数据集与实验环境

（1）数据集下载链接

https://download.csdn.net/download/fencecat/85104287

（2）环境配置

本实验使用tensorflow环境为1.14，如果安装的是tensorflow2.0版本会报错。

四、总结

1.混淆矩阵

事实上，我们可以使用混淆矩阵来可视化模型的训练精度。基本上，混淆矩阵显示有多少数据点实际属于一个类，而预测属于一个类。

[En]

in fact, we can use the confusion matrix to visualize the training accuracy of the model. Basically, the confusion matrix shows how many data points actually belong to one class, and the prediction belongs to one class.*
此外，还可以通过ROC曲线来判断模型是否有效。
通过混淆矩阵的可视化结果，我们可以比较基于深度学习算法LeNet5结构的股票预测与基于LSTM的股票预测的准确度，有兴趣的可以实现一下，这也是我下一步的任务。

2.续前文LeNet5股票预测

原文链接：https://blog.csdn.net/fencecat/article/details/124072324?spm=1001.2014.3001.5501
LeNet5股票预测文末的混淆矩阵实现模型精度可视化：


def plot_confusion_matrix(cm, labels_name, title):
    cm = cm.astype(np.float64)
    if(cm.sum(axis=0)[0]!=0):
        cm[:,0] = cm[:,0] / cm.sum(axis=0)[0]
    if(cm.sum(axis=0)[1]!=0):
        cm[:,1] = cm[:,1] / cm.sum(axis=0)[1]
    plt.imshow(cm, interpolation='nearest')
    plt.title(title)
    plt.colorbar()
    num_local = np.array(range(len(labels_name)))
    plt.xticks(num_local, labels_name)
    plt.yticks(num_local, labels_name)
    plt.ylabel('True label')
    plt.xlabel('Predicted label')
cm=confusion_matrix(t,pre)
y_true = np.array(list(map(int,t)))
y_scores = np.array(list(map(int,pre)))

roc=str(roc_auc_score(y_true, y_scores))
precision, recall, _thresholds = precision_recall_curve(y_true, y_scores)
pr =str(auc(recall, precision))
title="ROC AUC:"+roc+"\n"+"PR AUC:"+pr
labels_name=["0.0","1.0"]
plot_confusion_matrix(cm, labels_name, title)
for x in range(len(cm)):
    for y in range(len(cm[0])):
        plt.text(y,x,cm[x][y],color='white',fontsize=10, va='center')
plt.show()

可视化结果：

可以看到实验准确率为68.9%，并不是很好，可以通过调整网络结构优化模型来提高准确度。

Original: https://blog.csdn.net/fencecat/article/details/124081814
Author: Zkaisen
Title: 基于LSTM算法的股票预测

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/496202/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Realsense-D455的IMU在ubuntu18.04使用

一。配置realsense-ros: 已经新建了ROS工作空间，可以直接在工作空间的src目录下克隆相关功能包，然后进行编译，具体命令参考下方： 1、已建好工作空间Realsens…

人工智能 2023年6月11日
0073
睿智的目标检测50——Tensorflow2 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台

睿智的目标检测50——Tensorflow2 利用mobilenet系列（v1,v2,v3）搭建yolov4目标检测平台学习前言源码下载网络替换实现思路 * 1、网络结构解析…

人工智能 2023年5月25日
0066
深度学习（四）-全连接神经网络简单理解

一、前言阅读该文前请先看认识要从线性回归和逻辑回归说起，因为本质上来说线性回归和逻辑回归是一种最简单的神经网络，从线性回归和逻辑回归开始理解，会相对容易一些！神经网络网络也被称…

人工智能 2023年7月14日
00162
NSL-KDD 基于随机森林的分类模型

NSL-KDD 基于随机森林的分类模型数据集 NSL-KDD数据集是网络安全领域相对权威的入侵检测数据集，它对KDD 99的一些固有问题做了改进。（1）NSL-KDD数据集的训…

人工智能 2023年6月30日
00107
pytorch的eval()失效剖析及解决方案

一般情况下，模型在训练的时候，需要保证是train()模式，而在评估时需要保证是eval()模式。因为很多时候，模型中会包含dropout、BN的操作，而eval()模式下这两个功…

人工智能 2023年7月22日
0037
yolov5调用ip摄像头时出现的问题

今天尝试使用yolov5-5.0做实时目标检测，但是当输入指令： python detect.py –source http://192.168.xx.xx:xx/video -…

人工智能 2023年6月18日
0064
海思（六）如何在ubuntu20.04上搭建caffe环境

比海思（五）教程更全面 1、搭建opencv3.4的环境步骤1：获取opencv3.4版本软件包 OpenCV下载地址：官网：https://opencv.org/ Githu…

人工智能 2023年7月20日
0084
MongoDB-使用mongo/mongosh命令行连接数据库

之前的文章中有介绍：但是，直接介绍的都是通过GUI工具去连接数据库，并没介绍用命令行的方式去连接，今天补充一下： 1 使用mongo命令找到安装目录下的bin目录下，有一个mo…

人工智能 2023年7月29日
0046
tensorboard : 无法将“tensorboard”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写，如果包括路径，请确保路径正确，然后再试一次。

如在 anaconda Prompt命令台中的pytorch环境中安装tensorboard后，我们在pycharm运行程序生成了如下文件：想要打开这个文件我们在pycharm中…

人工智能 2023年6月16日
00123
对deap数据集进行脑电情绪识别并进行频谱分析（频域特征）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年7月14日
0063
c++函数模板与类模板

1 模板介绍模板是C++中泛型编程的基础。一个模板就是一个创建类或函数的蓝图或者公式。 2 函数模板 2.1 函数模板的实现函数模板形式 template 类型函数名(形参表…

人工智能 2023年6月29日
0059
推荐一个开源还在维护的标注工具（支持图像、文本、视频、医疗图像）

鹏城实验室开发的标注系统，完全开源，地址：OpenIOSSG/PLabel: 半自动标注系统是基于BS架构，纯Web页面操作，集成视频抽帧，目标检测、视频跟踪、ReID分类等算法，…

人工智能 2023年7月10日
00116
SpringBoot-属性绑定和bean属性校验

目录属性绑定自定义类属性绑定第三方bean属性匹配规则:松散绑定（宽松绑定） Bean属性校验属性绑定属性绑定：我们可以使用配置文件对类的属性进行赋值绑定。自定义类属…

人工智能 2023年6月30日
0047
Python shutil copy()，copyfile() 和 copytree()函数

最近在处理数据集，经常会使用shutil相关函数处理文件，今天专门观察了下copy()，copyfile() 和 copytree() 之间的差别。 shutil.copy() 移…

人工智能 2023年6月25日
0079
K210 Mx-yolov3模型训练和物体识别

一、简介（1）硬件准备: K210开发板：拥有1TOPS算力，可以运行神经网络模型，同时其提供在线模型训练平台（maixhub），支持物体分类和物体识别。（2）软件环境 Mx-…

人工智能 2023年6月15日
0060
【Node.js实战】一文带你开发博客项目（API 对接 MySQL）

个人简介 👀 个人主页：前端杂货铺🙋‍♂️ 学习方向：主攻前端方向，也会涉及到服务端📃 个人状态：在校大学生一枚，已拿多个前端 offer（秋招）🚀 未来打算：为中国的工业软…

人工智能 2023年6月28日
00100

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

基于LSTM算法的股票预测

基于LSTM算法的股票预测

一、LSTM基本原理

1.长短期记忆(LSTM)

二、LSTM预测股票走势

1.导入相关库文件

2.从oss2下载并解压数据集

（1）关于oss的学习

（2）具体代码及注释

3.解压数据

（1）关于解压命令

-q：执行时不显示任何信息；

-d

（2）关于!rm -rf __MACOSX

这些MetaData产生的文件就是 __MACOSX，本身这些文件在Mac上是隐藏属性的，也确实方便了Mac用户

但在Windows中 __MACOSX就成了”缓存文件”或垃圾文件，只有在Windows系统才能看到，Mac不可见

所以，当我们打开压缩文件的时候，如果出现 __MACOSX，直接删除即可，不会对你的文件有任何影响

（3）具体代码及相关注释

4.导入数据可视化

（1）df.info():

（2）head()函数的观察读取的数据

（3）使用describe观察数据的分布情况

（4）可视化选取的相关指标

5.数据的预处理

（1）数据集划分比例

（2）定义最小最大值归一化函数

（3）划分数据集

（4）去除冗余指标并显示训练集的有效指标

（5）归一化并查看训练集，验证集，测试集的大小

（6）对指标数据可视化

6.RNN建模-LSTM/GRU

（1）对训练数据随机化处理

（2）定义超参

（3）定义网络结构

（4）开始训练

7.模型预测

（1）模型的预测

（2）预测结果可视化

; 三、数据集与实验环境

（1）数据集下载链接

（2）环境配置

四、总结

1.混淆矩阵

2.续前文LeNet5股票预测

大家都在看