利用talib构造股票因子，并利用数据挖掘算法进行因子筛选

2023年9月6日下午12:10 • Python • 阅读 85

本文主要是利用python的talib包和tushare获取数据进行因子构造，并基于Apriori算法对股票因子进行筛选。

数据来源：Tushare大数据社区Tushare为金融数据分析提供便捷、快速的接口，与投研和量化策略无缝对接利用talib构造股票因子，并利用数据挖掘算法进行因子筛选 https://tushare.pro/register?reg=403436 ;不知道如何编写代码的也可以直接进入数据工具接口生成即可Tushare数据工具，非常方便。

以贵州茅台为例。

首先导入要使用的包：

import math
import tushare as ts
import pandas as pd
import matplotlib
import matplotlib.pyplot as plt
import numpy as np
import talib

利用tushare获取数据，学生可以免费领取一年的积分使用权限，调取数据非常方便。

使用两个接口获取我们需要的基本数据，开盘价，收盘价，市盈率等等

matplotlib.rcParams['axes.unicode_minus']=False
plt.rcParams['font.sans-serif']=['SimHei']
ts.set_token('af3...')
#这里是token码 获取地址  https://tushare.pro/register?reg=403436（需注册）
pro = ts.pro_api()

df1=pro.daily( ts_code='600519.SH', start_date='20200101', end_date='20210827',fields='trade_date,open,high,low,close,change,vol,amount')
df2=pro.daily_basic(ts_code='600519.SH', start_date='20200101', end_date='20210827',fields='turnover_rate,pe,pb,ps,dv_ratio')
df = df1.join(df2)
df=df.sort_index()
df.index=pd.to_datetime(df.trade_date,format='%Y-%m-%d')#设置日期索引

close = df['close']

接下来详细演示如何构造我们常用的一些因子

#MA 常用移动平均线
df['MA1'] =talib.MA(np.array(df.close), timeperiod=5)
df['MA2'] =talib.MA(np.array(df.close), timeperiod=10)
df['MA3'] =talib.MA(np.array(df.close), timeperiod=20)

#MACD 异同移动平均线
df['MACD'],df['MACDsignal'],df['MACDhist'] = talib.MACD(np.array(close),
                            fastperiod=6, slowperiod=12, signalperiod=9)

#OBV 能量潮指标
df['obv'] = talib.OBV(np.array(df.close), np.array(df.vol))

#BOLL 布林带
df['upper'], df['BOLL'], df['lower'] = talib.BBANDS(
                df.close,
                timeperiod=20,
                # number of non-biased standard deviations from the mean
                nbdevup=2,
                nbdevdn=2,
                # Moving average type: simple moving average here
                matype=0)

#RSI 相对强弱指标
df["rsi1"] = talib.RSI(df.close, timeperiod=6)
df["rsi2"] = talib.RSI(df.close, timeperiod=12)
df["rsi3"] = talib.RSI(df.close, timeperiod=24)

#WR 威廉指标，感觉6日和10日用的较多
df['WR1'] = talib.WILLR(df.high, df.low, df.close, timeperiod=6)
df['WR2'] = talib.WILLR(df.high, df.low, df.close, timeperiod=10)

#KDJ KDJ指标
df['kdj-k'],df['kdj-d'] = talib.STOCH(df.high, df.low, df.close)
df['kdj-j'] = df['kdj-k'] * 3 - df['kdj-d'] * 2

#BIAS 乖离率
df['bias_6'] = (df['close'] - df['close'].rolling(6, min_periods=1).mean())/ df['close'].rolling(6, min_periods=1).mean()*100
df['bias_12'] = (df['close'] - df['close'].rolling(12, min_periods=1).mean())/ df['close'].rolling(12, min_periods=1).mean()*100
df['bias_24'] = (df['close'] - df['close'].rolling(24, min_periods=1).mean())/ df['close'].rolling(24, min_periods=1).mean()*100
df['bias_6'] = round(df['bias_6'], 2)
df['bias_12'] = round(df['bias_12'], 2)
df['bias_24'] = round(df['bias_24'], 2)

#ROC 变动率指标
df['ROC']=talib.ROC(df['close'], timeperiod=10)

将指标放在一起，可以得到如下图表

将大于均值的设为1，小于均值的设为0，便于我们发现因子与收盘价之间的关系。

使用Apriori算法进行分析，这里使用的是Clementine软件进行分析。

导入Clementine软件，点击Apriori算法即可。

自行确定规则即可，这里取支持度大于50%，置信度大于80%的指标，即可选出关联较强的因子。

Original: https://blog.csdn.net/wlbx00/article/details/120357551
Author: lili梨花
Title: 利用talib构造股票因子，并利用数据挖掘算法进行因子筛选

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/769480/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas函数方法分类参数说明+实例分析！！

Pandas描述性统计（函数用法说明） count() 非空数据的&a…

Python 2023年8月8日
0062
Amazon Review Dataset数据集介绍

Amazon Review Dataset数据集记录了用户对亚马逊网站商品的评价，是推荐系统的经典数据集，并且Amazon一直在更新这个数据集，根据时间顺序，Amazon数据集可以…

Python 2023年8月18日
0044
深入浅出matplotlib(104)：使用scipy.signal.sosfilt函数

在滤波设计里，滤波器会有多种参数保存方式，来源于滤波器的类型比较多，每一种各有优缺点。比如从下面界面看到，就有以下几种：可以看到采用SOS结构保存，也就是Second-order…

Python 2023年9月4日
0045
Matplotlib常用图形制

Matplotlib绘制的常用图形包括散点图、线性图、柱状图、直方图、饼图、箱线图和子图。本节中绘图使用的数据文件为：车次上车人数统计表.xls，其表结构如表4-2所示。表4-2…

Python 2023年9月1日
0065
《深入浅出Pandas：利用Python进行数据处理与分析》——第3部分数据形式变化_02数据合并对比

文章目录数据追加:append——已弃用，使用append 数据连接concat——数据合并的问题数据合并:merge——数据联结的问题按元素合并:combine和updat…

Python 2023年8月8日
0052
因势而变,因时而动,Go lang1.18入门精炼教程，由白丁入鸿儒，Go lang泛型(generic)的使用EP15

事实上，泛型才是Go lang1.18最具特色的所在，但为什么我们一定要拖到后面才去探讨泛型？类比的话，我们可以想象一下给小学一年级的学生讲王勃的千古名篇《滕王阁序》，小学生有多大…

Python 2023年10月23日
0054
pyqt5+pygame实现音乐播放器，可以自动提取文件图片，最终版本

pyqt5+pyagme实现音乐播放器，运用了pyqt5的list，可以双击播放，会自动提取音频文件的图片源码下载:自己往下翻！！！，（但如果你想用积分下载我也拦不了你）http…

Python 2023年9月20日
0090
通过cmd指令创建vue项目

通过cmd指令创建vue项目基础材料：已安装node.js已安装 npm（安装node.js后会自带安装npm）首先通过node –v和npm –v确保他们都安装了，能够看见…

Python 2023年9月30日
0037
Pytest测试框架基础篇

今天和大家分享一下pytest测试框架的基础篇，内容包括：– 了解pytest测试框架的特点– 掌握pytest基本使用– 掌握pytest常用…

Python 2023年9月11日
0063
pands.qcut 太慢？使用numpy来让速度起飞

对于数据处理，一般来说，处理数独方面，pdDataFame < pd.Series < np.array 最近在使用 pd.qcut 进行数据划分方面的工作，发现速度真…

Python 2023年8月17日
0080
mysql面试

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年11月9日
0036
矩阵的用法Python numpy学习（2）

相关知识可能是最全的NumPy基础知识(一) Python矩阵的基本用法 mat（）函数将目标数据的类型转化成矩阵（matrix） 1，mat()函数和array()函数的区别 …

Python 2023年8月30日
0068
python基础(一)–标准输入输出

input()函数被称为格式输入语言,即按照用户指定的格式从键盘把数据输入到指定变量中 x = input(‘请输入年龄:’) print(x) 也可以使用 eavl()函数和 i…

Python 2023年8月26日
0049
python之whl文件解释与安装

.whl文件解释 whl文件时以wheel格式保存的python安装包，Wheel是Python发行版的标准内置包格式。WHL文件包含Python安装的所有文件和元数据，其中还包括…

Python 2023年8月2日
0086
【点云预处理】10种点云数据数据预处理增强方法 — 持续总结和更新（一）

本文为博主原创文章，未经博主允许不得转载。本文为专栏《python三维点云从基础到深度学习》系列文章，地址为”https://blog.csdn.net/suiying…

Python 2023年8月24日
0048
pytest学习

一、pytest 安装安装：pip install pytest 查看版本：pytest –version 二、简单测试 1、创建testcase.py，编写一个测试…

Python 2023年9月12日
0078

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

利用talib构造股票因子，并利用数据挖掘算法进行因子筛选

大家都在看