课程作业——基于数据挖掘算法和技术指标预测股票涨跌

2023年7月17日下午5:45 • 人工智能 • 阅读 69

导入数据

import pandas as pd

data = pd.read_csv(‘D:/QQ文件夹/金发科技数据十年.csv’)

data.head()

绘制自相关系数图

import matplotlib.pyplot as plt

import numpy as np

import seaborn as sns

plt.figure(figsize=(20, 20)) # 指定绘图对象宽度和高度

colnm = data.columns.tolist() # 列表头

mcorr = data[colnm].corr(method=”spearman”) # 相关系数矩阵，即给出了任意两个变量之间的相关系数

mask = np.zeros_like(mcorr, dtype=np.bool) # 构造与mcorr同维数矩阵为bool型

mask[np.triu_indices_from(mask)] = True # 角分线右侧为True

cmap = sns.diverging_palette(220, 10, as_cmap=True) # 返回matplotlib colormap对象

g = sns.heatmap(mcorr, mask=mask, square=True, annot=True, fmt=’0.5f’) # 热力图（看两两相似度）

plt.show()

剔除相关系数过高的几个属性，没有用主成分分析剔除属性是因为后续准确率不高

data = data.drop([‘BIAS2′,’MA8′,’KDJ_K’,’BIAS3′],axis=1)

data

检测缺失值

data.isnull().sum()

建立属性变量X和类别y

from sklearn.tree import DecisionTreeClassifier

X=data.iloc[:,1:13]

print(X)

y=data[‘Y’]

y.value_counts()#上涨天数1031天，下跌或不变天数1076天

数据标准化处理，消除量纲，每个数据减去均值再除以标准差

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(X)

X=scaler.transform(X)

X.shape

分配训练集与测试集

from sklearn import tree

from sklearn.model_selection import train_test_split

import matplotlib.pyplot as plt

train_x,test_x,train_y,test_y= train_test_split(X,y,test_size=0.1,train_size=0.9)

用信息增益法划分决策树

tree_modela=DecisionTreeClassifier(criterion=’entropy’,max_depth=3)

tree_modela.fit(train_x,train_y)

tree.plot_tree(tree_modela,feature_names=name,class_names=’01’)

plt.show()

深度改为4，检测分类效果

tree_modeld=DecisionTreeClassifier(max_depth=4)

tree_modeld.fit(train_x,train_y)

tree.plot_tree(tree_modeld,feature_names=name,class_names=’01’)

plt.show()

tree_modele=DecisionTreeClassifier(criterion=’entropy’,max_depth=4)

tree_modele.fit(train_x,train_y)

tree.plot_tree(tree_modele,feature_names=name,class_names=’01’)

plt.show()

深度为4时分类效果逊于深度为3，可能出现了过拟合现象，通过设置最小叶节点数量为13减少过拟合

tree_modelb=DecisionTreeClassifier(criterion=’entropy’,max_leaf_nodes=13)

tree_modelb.fit(train_x,train_y)

tree.plot_tree(tree_modelb,feature_names=name,class_names=’01’)

plt.show()

采用准确率得到的准确率为0.7096，采用F1度量得到的准确率为0.7105

SVC支持向量机法分类

from sklearn import svm

clf=svm.SVC()

clf.fit(train_x,train_y)

result=clf.predict(test_x)

print(result)

逻辑回归模型

from sklearn.linear_model import LogisticRegression as LR

lr=LR()

lr.fit(train_x,train_y)

result=clf.predict(test_x)

sc=clf.score(train_x, train_y)

神经网络模型

from sklearn.neural_network import MLPClassifier

wl=MLPClassifier(solver=’lbfgs’,alpha=1e-5,hidden_layer_sizes=8,random_state=1)

wl.fit(train_x,train_y)

result=wl.predict(test_x)

sc=wl.score(train_x,train_y)

K近邻算法 p=1代表用曼哈顿距离度量

from sklearn import neighbors

knn = neighbors.KNeighborsClassifier(n_neighbors=30,weights=’uniform’, algorithm=’auto’, leaf_size=30,p=1, metric=’minkowski’, metric_params=None, n_jobs=1)

knn.fit(train_x, train_y)

p=2用欧氏距离度量

knn1 = neighbors.KNeighborsClassifier(n_neighbors=30,weights=’uniform’, algorithm=’auto’, leaf_size=30,p=2, metric=’minkowski’, metric_params=None, n_jobs=1)

knn1.fit(train_x, train_y)

多划分几次训练集和测试集

train_x,test_x,train_y,test_y= train_test_split(X,y,test_size=0.2,train_size=0.8)

train_x,test_x,train_y,test_y= train_test_split(X,y,test_size=0.3,train_size=0.7)

评价模型

import sklearn.metrics as metrics

result_modela=metrics.classification_report(test_y,tree_modela.predict(test_x))

print(result_modela)

注：一是时间序列预测不能使用十折交叉验证，因为不能用未来的信息预测过去的信息，二是要按不同比例多划分几次训练集和测试集测试模型的准确率。

Original: https://blog.csdn.net/m0_57065258/article/details/122643108
Author: xxm5656
Title: 课程作业——基于数据挖掘算法和技术指标预测股票涨跌

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699158/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

利用自己构建的网络进行鼾声识别

1 目前的工作 5692条3s且采集率为8000hz的鼾声与6824条3s且采集率为8000hz的其他类音频。通过FFT频谱转换为300个(30,513,1)的矩阵。训练集与测试集…

人工智能 2023年5月25日
0079
YOLOV5 代码复现以及搭载服务器运行

文章目录前言一、YOLO简介二、代码下载三、数据集准备四、配置文件的修改 * 1.data下的yaml 2.models下的yaml 3.训练train 五、搭载服务器训…

人工智能 2023年6月16日
0092
毕设题目：Matlab无人机三维路径规划

1 案例背景在无人机低空飞行时,障碍物的形状大都不规则,很难建立其准确的解析模型;针对该问题,在栅格法的基础上提出了一种利用类三维地图进行路径规划的方法;首先阐述了类三维地图的创建…

人工智能 2023年6月18日
0071
【目标检测】YOLOv5跑通VOC2007数据集

前言如果经常阅读我博客的读者，想必对YOLOv5并不陌生。在Pytorch：YOLO-v5目标检测(上)一文中，我使用了coco128数据集，非常轻松的跑通了。然而在使用VOC2…

人工智能 2023年6月17日
00104
Spring 面向切面编程第3关：AOP实现原理-JDK动态代理

目录任务描述相关知识代理模式(Proxy) AOP实现的两种方式 JDK动态代理步骤案例模拟AOP实现代理类说明编程要求测试说明参考代码任务描述我们知道， Sp…

人工智能 2023年6月29日
0080
Ubuntu之cudnn安装

一、cudnn简介 NVIDIA cuDNN是用于深度神经网络的GPU加速库。它强调性能、易用性和低内存开销。NVIDIA cuDNN可以集成到更高级别的机器学习框架中，如谷歌的T…

人工智能 2023年5月23日
00108
堆排序（数据结构）

; 堆排序建立大根堆 ; 大根堆代码实现 #include using namespace std; void BuildMaxHeap(int arr[], int len);…

人工智能 2023年6月29日
0064
安装numpy问题总结

一、WARNING，YOU are using pip version 22.0.4；however，version 22.1 is available 原因分析：提醒您正在使用p…

人工智能 2023年7月23日
0071
AlexNet网络的搭建以及训练花分类

本学习笔记参考自B站up主霹雳吧啦Wz 其中也是首次再CNN中应用到了 ReLU和 Dropout 输入的数据特征为224×224×3，同时论文中采用双GPU并行运算的方法，我们…

人工智能 2023年7月2日
0062
3D 语义分割——2DPASS

😸2DPASS（ ECCV2022 ）主要贡献：提出了二维先验辅助语义分割 2DPASS，该方法利用相机的二维先验信息来辅助三维语义分割。据作者团队所知，2DPASS 是第一…

人工智能 2023年6月25日
0065
【算法】跑ORB-SLAM2遇到的问题、解决方法、效果展示（环境：Ubuntu18.04+ROS melodic）

文章目录一、Pangolin库的介绍和安装问题 * 1、问题：Error: No preferred package managers from list [brew] foun…

人工智能 2023年6月10日
00128
Building wheel for mmcv-full (setup.py) … error解决办法！

mmdetection 安装后，根据官方给的程序安装mmcv时，出现：Building wheel for mmcv-full (setup.py) … error 环…

人工智能 2023年7月5日
00104
TensorFlow保姆级别教入门，不会就把我头打爆

tools目录下的data_split.py 文件，这是一个将数据集按文件夹目录划分可以搭配百度爬虫https://github.com/linxinloningg/lightw…

人工智能 2023年5月24日
0071
Openai神作Dalle2理论和代码复现

Openai神作Dalle2 注：大家觉得博客好的话，别忘了点赞收藏呀，本人每周都会更新关于人工智能和大数据相关的内容，内容多为原创，Python Java Scala SQL 代…

人工智能 2023年6月23日
0083
EfficientNetV2简述（图像分类篇）

文章是对博主视频讲解的一些总结。博主链接：https://blog.csdn.net/qq_37541097?spm=1001.2014.3001.5509 1.预言 Effici…

人工智能 2023年7月1日
00112
【问题解决】安装PCL报错：nvcc fatal : Unsupported gpu architecture ‘compute_30‘

问题描述显卡： NVIDIA GeForce RTX 3060CUDA版本： CUDA 11.2PCL版本： 1.10.1 make过程中出现： nvcc fatal : Uns…

人工智能 2023年5月26日
00128

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

课程作业——基于数据挖掘算法和技术指标预测股票涨跌

导入数据

绘制自相关系数图

cmap = sns.diverging_palette(220, 10, as_cmap=True) # 返回matplotlib colormap对象

剔除相关系数过高的几个属性，没有用主成分分析剔除属性是因为后续准确率不高

检测缺失值

建立属性变量X和类别y

数据标准化处理，消除量纲，每个数据减去均值再除以标准差

分配训练集与测试集

用信息增益法划分决策树

深度改为4，检测分类效果

深度为4时分类效果逊于深度为3，可能出现了过拟合现象，通过设置最小叶节点数量为13减少过拟合

SVC支持向量机法分类

逻辑回归模型

神经网络模型

K近邻算法 p=1代表用曼哈顿距离度量

p=2用欧氏距离度量

多划分几次训练集和测试集

评价模型

大家都在看