Tushare数据本地化多进程版本——如何快速一次性获取全部股票数据

2023年8月20日上午2:31 • Python • 阅读 63

在我自己早期使用tushare进行股票数据获取的时候遇到一个问题：如何快速获取全市场所有股票的行情数据呢？

一般来说，我们可以采用for循环的方式：

def Get_stock_basicinfo():
    stock_basicinfo = pro.stock_basic(list_status='L')
    return stock_basicinfo

设置股票池
stock_list = list(stock_basic_info['ts_code'])

for stock in stock_list:
    # ---获取后复权数据---
    df = ts.pro_bar(ts_code=stock_code, adj='hfq', start_date='20000101')
    # ---存入数据---
    df.to_csv(os.path.join('stock_hfq', f'{stock_code}.csv'))
    print(df.head(3))

但是据我所知，根据我的个人经验，因为网络延迟等原因，i+1的股票要等到i获取完才会开始，最终用for循环我们大概需要十个小时才能获取全部4000+股票的数据。。。

于是我们迎来了多线程版本：

（我一次性贴上全部代码，但是其中很多只是功能代码可以忽略，着重关注Get_Data就行了！）

#!/usr/bin/env python3
-*- coding: utf-8 -*-
"""
Created on Tue Sep 15 21:02:08 2020

@author: 梧承
"""

import multiprocessing
import os
import pandas as pd
import time
import tushare as ts

def log(text):
    print('-' * 15)
    print(text)

def set_tushare(token):
    ts.set_token(token)
    pro = ts.pro_api()
    return pro

def set_done_code():
    work_dir = os.getcwd()
    file_path = os.path.join(work_dir, 'done_code.csv')
    flag = 0
    if not os.path.exists(file_path):
        # 如果不存在记录文件则创建
        done_code = pd.DataFrame(dict(done_code=[]))
        done_code.to_csv('done_code.csv')
        log('创建：done_code.csv')
    else:
        done_code = pd.read_csv(file_path, index_col=[0])
        if not done_code.empty:
            flag = input('是否继续上次未加载股票？确认1否认0：')
            if flag == 0:
                done_code = pd.DataFrame(dict(done_code=[]))
                done_code.to_csv('done_code.csv')
                log('已重置：done_code.csv')
        else:
            pass
    assert flag == 0 or 1
    return flag, list(done_code['done_code'])

def set_mkdir(dir_name):
    work_dir = os.getcwd()
    if not os.path.isdir(os.path.join(work_dir, dir_name)):
        os.mkdir(dir_name)
        log(f'已创建：{dir_name}')
    else:
        log(f'已存在：{dir_name}')

def record_done_code(stock_code):
    done_code = pd.read_csv('done_code.csv', index_col=[0])
    d_code = pd.DataFrame(dict(done_code=stock_code), index=[0])
    done_code.append(d_code, ignore_index=True)
    done_code.to_csv('done_code.csv')

def Get_stock_basicinfo():
    stock_basicinfo = pro.stock_basic(list_status='L')
    return stock_basicinfo

def Get_Data(stock_code):
    try:
        # ---获取数据---
        df = ts.pro_bar(ts_code=stock_code, adj='hfq', start_date='20000101')
        # ---存入数据---
        df.to_csv(os.path.join('stock_hfq', f'{stock_code}.csv'))
        # 记录已获取股票
        record_done_code(stock_code)
        time.sleep(1)
        print(df.head(3))
    except:
        print(f'未能获取数据：{stock_code}')
        pass

if __name__ == '__main__':
    set_mkdir('stock_hfq')
    # 设置token
    pro = set_tushare('你的token 可以从tushare网站获取')
    # 获取股票基本数据
    stock_basic_info = Get_stock_basicinfo()
    # 设置股票池
    flag, done_code = set_done_code()
    stock_list = list(stock_basic_info['ts_code'])
    # 如果flag==0则直接使用stock_list 否则使用stock_list与done_code的差集即未完成的股票
    code = stock_list if flag == 0 else stock_list.remove(done_code)
    # 设置进程池
    p = multiprocessing.Pool(8)
    b = p.map(Get_Data, code)
    p.close()
    p.join()

特别注明的是，你需要根据你的cpu核心数决定这一行代码的参数：

p = multiprocessing.Pool(8)

如果不出意外的话，用多线程方法时间将从十个小时缩短到十分钟左右。请把牛逼打在公屏上！

另外，我修改我之前的程序添加了从上次剩余为获取股票继续开始获取的功能，由于技术水平有限没有搞明白怎么在map里面添加两个参数来在内部传递done_code，因此稍微复杂地采用外部文件记录的方式来进行，不过也算是可以使用吧！

在我学习Python的早期，是CSDN上很多慷慨无私分享的大神帮助我度过难关。很多知识的学习是个陡峭的学习过程，很肯能并不是这个知识有多么苦难，而是过于陡峭的曲线劝退了大多数人。

我知道Python是一个值得掌握的技能，因此我把这些内容分享出来，因为这就是互联网精神。希望给还在坑里面摸爬滚打的朋友一点光亮。

另外大家有兴趣可以关注我的个人公众号：梧承 Book House

Original: https://blog.csdn.net/weixin_44566452/article/details/120830727
Author: 梧承
Title: Tushare数据本地化多进程版本——如何快速一次性获取全部股票数据

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/754434/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Cookie文件说明及IE的Cookie文件格式

1、Cookie文件的实质 Cookie实际上是Web服务端与客户端（典型的是浏览器）交互时彼此传递的一部分内容，内容可以是任意的，但要在允许的长度范围之内。客户端会将它保存在本地…

Python 2023年6月10日
0093
Pandas函数(2）

一、描述性统计信息函数 #创建一个DataFrame数&#x6…

Python 2023年8月22日
0049
python打开文件

open()：open(file, mode=’r’, buffering=- 1, encoding=None, errors=None, newline…

Python 2023年8月2日
0069
Python日记（7）——主成分分析

Python日记（7）——主成分分析每天做一个Python小练习，顺便记录一些小技巧。主成分分析（PCA）是一个比较常见的特征降维，在许多领域都被广泛运用。主成分分析原理主成分…

Python 2023年8月27日
0047
Numpy and SIMD

Numpy is by its design a SIMD structure, which is best examplified by the list indexing fe…

Python 2023年8月26日
0049
字典

第5节.字典 5.1一个简单的字典字典的特性：无序，键对值，键不可重复 alien_0={‘color’:’green’,’points’:’5′}print(alien_0[‘…

Python 2023年6月3日
0046
OpenCV-Python实战（番外篇）——OpenCV、NumPy和Matplotlib直方图比较

OpenCV-Python实战（番外篇）——OpenCV、NumPy和Matplotlib直方图比较 * – 前言 – OpenCV、NumPy和Matpl…

Python 2023年8月28日
0056
从Python到水一篇AI论文（核心 or Sci三区+）（目录）

这里没有繁复冗余的知识点，绕过我走过的弯路，踩着我摸出来的石头，一条道接着一条道，直达水出一篇论文…… 想从事 AI 开发、亦或者想读博，这个合集不是为你而…

Python 2023年10月28日
0038
Part14:Pandas批量拆分与合并Excel文件

Pandas批量拆分Excel与合并Excel 实例演示: 1.将一个大Excel等份拆成多个Excel 2.将多个小Excel合并成一个大Excel并标记来源 #&#x6…

Python 2023年8月19日
0061
对现有的股票数据进行线性拟合并用matplotlib绘图

本文所用文件的百度云链接： 链接：https://pan.baidu.com/s/15-qbrbtRs4frup2…

Python 2023年9月5日
0044
【Python基础练习】随机数组和可视化数据集

随机数组 — 正态分布数组描述 1、使用numpy库random子库随机产生四门课的成绩，随机种子数取：0x1010‪‬‪‬‪‬‪‬‪‬‮‬‭‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪…

Python 2023年8月29日
0040
Pytorch：自定义Subset/Dataset类完成数据集拆分

from torchvision.datasets import FashionMNIST from torchvision.transforms import Compose, …

Python 2023年10月26日
0046
强化学习-学习笔记10 | 经验回放

Experience Replay 经验回放。价值学习高级技巧第一篇。之前讲解的价值学习的方法都很简单，所以实现效果并不优秀。接下来会介绍一些高级的技巧，可以大幅度提高 DQ…

Python 2023年10月25日
0048
解决jupyter中出现中文乱码的问题

import pandas as pd import matplotlib.pyplot as plt import matplotlib matplotlib.use(‘qt4a…

Python 2023年9月2日
0047
简单的利用boost.python 和 boost.numpy 实现python和c++之间数据通信例子

boost.python对c++很友好，甚至能直接将python的一些数据结构 list（列表），dict（字典）和相互嵌套等数据传输到c++，boost.numpy也方便pyth…

Python 2023年8月29日
0087
python深度学习基于pytorch代码1.3Numpy的算术运算

### 回答1： PyTorch_是一个用于 _深度学习_的开源 _Python_库，它是一种动态计算图框架，可以使模型的训练更加灵活。它提供了大量的高级功能，如自动微分、动态图构…

Python 2023年8月25日
0050

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31