Python金融数据分析_3_读取数据并分析

2023年7月17日下午4:21 • 人工智能 • 阅读 75

Tushare

Tushare是一个免费、开源的python财经数据接口包。主要实现对股票等金融数据从数据采集、清洗加工到数据存储的过程，能够为金融分析人员提供快速、整洁、和多样的便于分析的数据，在数据获取方面极大地减轻工作量、把精力更加专注于策略和模型的研究和实现上。

Tushare使用的标准数据格式是DataFrame类型，也可以通过Tushare的数据存储功能，将数据全部保存到本地后进行分析。

数据类型

交易数据：股票、商品期货、期权等金融品种的历史行情、大盘指数等。

公告数据：在交易所公告的信息，例如分配预案、融资融券等信息。

股票分类：行业分类、热点概念等。

基本面上数据：上市公司的财务报表数据、相应财务指标数据等。

宏观经济数据：存款利率、货款利率、DGP数据等。

新闻事件：财经新闻、海外股票咨询等。

利率信息：Shibor利率等。

网址：Tushare大数据社区

Tushare 是一个第三方库，因此需要我们进行安装。

安装tushare
pip install tushare

tushare的版本
import tushare as ts
ts.__version__

pro = ts.pro_api()

#查询当前所有正常上市交易的股票列表

data = pro.stock_basic(exchange='', list_status='L', fields='ts_code,symbol,name,area,industry,list_date')

或者

#查询当前所有正常上市交易的股票列表

data = pro.query('stock_basic', exchange='', list_status='L', fields='ts_code,symbol,name,area,industry,list_date')

#取000001的前复权行情
df = ts.pro_bar(ts_code='000001.SZ', adj='qfq', start_date='20180101', end_date='20181011')

#取000001的后复权行情
df = ts.pro_bar(ts_code='000001.SZ', adj='hfq', start_date='20180101', end_date='20181011')

代码运行结果如下：

pro = ts.pro_api()

#提取2021-12-09的停牌股票
df = pro.suspend_d(suspend_type='R', trade_date='20211209')

代码运行结果如下：

pro版Tushare的部分数据需要一定积分获取权限，所需各类数据及代码可至官网查询。

Excel 读写

Excel 读写

data.to_excel("/Users/Desktop/当前所有正常上市交易的股票列表.xlsx")

获取本地excel文件 2021年12月9日 行情数据
/Users/Desktop/2021年12月9日 日行情数据.xlsx

推荐pandas实现 读取Excel数据
优点：（1）代码简单（2）DataFrame 查、删、改

import pandas as pd

把文件路径记录下来
path = "/Users/Desktop/2021年12月9日 日行情数据.xlsx"

pandas ：read_excel()
pd.read_excel(path)

代码运行结果如下：

把读取到的数据，保存下来

datas = pd.read_excel(path)

代码运行结果如下：

查询
某几行的数据
datas.iloc[0:2,:]

查询某几列的数据
datas.iloc[:,0:2]

查询某一格数据
datas.iloc[3,5]

 按信息 查询数据
datas.loc[:,"close"]

datas.loc[:,["ts_code","close"]]

代码运行结果如下：

Python来进行实现 高级查询

datas.loc[datas.loc[:,"close"] > 10]

代码运行如下：

datas.loc[datas.loc[:,"ts_code"] = "603986"]

代码运行结果如下：

数据处理

cal = datas.loc[0:4,:]

求和
pd.DataFrame(cal.sum()).T

代码运行结果如下：

多张excel表求和
pandas.concat

all_amount = pd.concat([amount_08,amount_09],axis = 0, ignore_index = True)

代码运行结果如下：

sum # &#x6C42;&#x548C;
count # &#x975E;NA&#x503C;&#x7684;&#x6570;&#x91CF;
min # &#x6700;&#x5C0F;&#x503C;
max # &#x6700;&#x5927;&#x503C;
argmin # &#x6700;&#x5C0F;&#x503C;&#x7684;&#x4F4D;&#x7F6E;
argmax # &#x6700;&#x5927;&#x503C;&#x7684;&#x4F4D;&#x7F6E;
quantile # &#x6837;&#x672C;&#x5206;&#x4F4D;&#x6570;
mean # &#x5E73;&#x5747;&#x6570;
median # &#x4E2D;&#x4F4D;&#x6570;
mad # &#x5E73;&#x5747;&#x7EDD;&#x5BF9;&#x79BB;&#x5DEE;
var # &#x65B9;&#x5DEE;
std # &#x6807;&#x51C6;&#x5DEE;
skew # &#x504F;&#x5EA6;
kurt # &#x5CF0;&#x5EA6;

数据处理完成后 保存在本地

result = all_ammout.sum()
result.to_excel("test.xlsx")

代码运行结果如下：

OLS 回归分析

使用最小二乘法OLS，进行回归运算
回归分析主要是用来确定两种数据之间的相关性，在金融建模中广泛使用，例如价格预测模型中，因子和股价之间的关系；套利策略中各个品种价格相关性等。

统计学相关函数，使用statsmodels
statsmodels是一个有很多统计类型的python库，它能完成很多统计测试、数据探索以及可视化
它包含一些经典的统计方法，比如贝叶斯和一个机器学习的模型。

线性模型（Linear models),广义线性模型（generalized models),鲁棒线性模型（rubust linear models）
线性混合效应模型（Linear mixed dffects models）
方差分析（ANOVA）方法（Analysis of variance methods）
时间序列处理（Time series processes）和状态空间模型（state space models）
广义矩估计方法（Generalized method of moments）

#--------------------------------------------------------
我们这次使用的是"线性模型"中的"OLS算法"

获取数据
1、上证指数数据，000001.SZ
2、深圳指数数据，3999001.SZ
3、对这两组数据进行回归分析

取出数据
每日涨跌百分比数据
sz_pct = df1.loc[:,"pct_chg"]
sh_pct = df2.loc[:,"pct_chg"]

回归分析，有自变量x和因变量y
如果数据之间有逻辑上的因果性（即因变量的变化，是由于自变量导致的），则自变量、因变量必须严格限定
反之，如果只是关心数据之间的相关性，则不在意因变量、自变量顺序

设置自变量、因变量
x = sz_pct
y = sh_pct

调用OLS函数
增加固定项
import numpy as np
import statsmodles.api as sm
cons = sm.add_constant(x)

OLS函数
result = sm.OLS(y,cons).fit()

查看拟合结果
print(result.summary())

代码运行结果如下：

Original: https://blog.csdn.net/weixin_42730572/article/details/121835627
Author: BelongToMe@Hui
Title: Python金融数据分析_3_读取数据并分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/699026/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

YOLOv5如何进行区域目标检测（手把手教学）

YOLOv5如何进行区域目标检测（手把手教学） 提示：本项&#…

人工智能 2023年6月16日
0071
100天精通Python（爬虫篇）——第43天：爬虫入门知识

### 回答1：这个问题的意思是询问一个学习 Python_数据分析的 _100 天_计划，我的回答如下： _Python_数据分析是非常重要的技能之一，学习它需要长时间的实践和…

人工智能 2023年7月18日
0051
重复测量资料纵向研究的数据分析-1

重复测量资料纵向研究的数据分析-1 单变量组内设计在纵向研究中，如果对同一个体的测量次数超过两次，情况会变得比较复杂。配对t检验就不再适用。先来理解什么是”单变量组…

人工智能 2023年6月11日
00134
mmpose关键点（二）：构建自己的训练集

mmpose一般使用如同coco数据json文件格式读取数据与标注，但是当我们用labelme去标注自己的训练集时，只能获取每张图片的标注json文件。接下来，我们简单介绍coco…

人工智能 2023年6月17日
0072
基于ssm的贫困生管理系统javaEE

目录目录 41 绪论 61.1项目背景介绍 61.2课题研究现状 61.3本论文的研究内容 71.4本论文的组织结构 72系统关键技术及工具简介 82.1 Java技术 82.2 …

人工智能 2023年6月28日
0076
Gabor特征码分析

转载请注明出处The Gabor filter, named after Dennis Gabor, is a linear filter used in myriad of im…

人工智能 2023年6月22日
0081
【opencv】(8) 傅里叶变换，高通低通滤波器

图像处理一般分为空间域处理和频率域处理。空间域处理是直接对图像内的像素进行处理。主要划分为灰度变换核空间滤波两种形式，灰度变换对图像内的单个像素进行处理，滤波处理涉及对图像质量的…

人工智能 2023年6月18日
00115
【动手学习深度学习】循环神经网络-3.语言模型

上一篇：【动手学习深度学习】循环神经网络-2.文本预处理文章目录 * – 3.语言模型 – + 3.1 学习语言模型 + 3.2 马尔科夫模型与n元语法 …

人工智能 2023年5月28日
0078
ColorMapGAN: Unsupervised Domain Adaptationfor Semantic Segmentation Using Color MappingGenerative

Tasar O, Happy S L, Tarabalka Y, et al. ColorMapGAN: Unsupervised domain adaptation for se…

人工智能 2023年6月11日
0072
关于py2neo中的merge,create，当反复执行时，会出现什么。。。

先导包和创建点和关系先把包导了，把Log也打印出来： from py2neo import Node, Relationship, Graph, NodeMatcher,Subg…

人工智能 2023年6月1日
0096
LD3320语音识别模块开发

达者为先师者之意 LD3320语音识别模块开发 1 LD3320语音识别模块基本参数 * 1.1 基本参数 1.2 识别原理 1.3 解决方案： 2 LD3320语音识别模块二次…

人工智能 2023年5月25日
0078
Mac M1 在PyCharm中安装（支持GPU）TensorFlow 方法

参考文章： Macbook M1安装tensorflow-gpu教程_Joemt的博客-CSDN博客_m1安装tensorflowMac M1 在PyCharm中安装（支持GPU）…

人工智能 2023年5月23日
0095
人脸识别太常见？好用才行，利尔达推出一体化人脸识别解决方案

人脸识别技术对输入的人脸图像或者视频流进行处理，是一种通过提取每张人脸中的特征信息进行身份鉴别的前沿识别技术。伴随着智能化时代的悄然到来，人脸识别技术日益普及并被大规模地应用于日…

人工智能 2023年7月12日
0050
anaconda下安装TensorFlow

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、anaconda 安装TensorFlow 二、安装步骤出现的问题以及解决 * 1.anaco…

人工智能 2023年5月23日
0094
目标检测 Object Detection

文章目录 * – 目标检测任务： – 【NMS】 – 【RCNN：Regions with CNN features】 – 【fas…

人工智能 2023年7月10日
0074
Pytorch机器学习（十）—— 目标检测中k-means聚类方法生成锚框anchor

Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor 目录 Pytorch机器学习（十）—— YOLO中k-means聚类方法生成锚框anchor…

人工智能 2023年7月21日
0058

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python金融数据分析_3_读取数据并分析

Tushare

Excel 读写

OLS 回归分析

大家都在看