三小时爬取四万份年报

2023年7月16日下午8:17 • 人工智能 • 阅读 69

三小时爬取四万份年报

本文爬虫的任务提交速度以及下载速度：

; 年报文本分析

如果你有年报文本分析需求，首先你就要获取上市公司年报
关于上市公司年报的爬虫已经有很多篇了，如下：

《30行代码轻松爬取全部A股公司年报》
《实战演练-爬取深交所年报》
《【爬虫】用Python爬取公司年报》
《Python爬取上交所年报并下载》
后三个太麻烦了，需要分析网页，爬取链接，第一个最简单，因为他直接给出了所有公司年报的下载链接（好人一生平安），秉承着能复制粘贴绝不自己写的原则，选了第一个。但是这几个爬虫都有两个问题：
1.如果你爬着爬着中断了，需要重新爬取
2.都是单线程，尤其是这种网络IO，效率低

因此，本文对第一个爬虫使用了多线程进行了改写，还使用了xlwings记录实时下载状态。

爬虫思路

先看一下第一个爬虫给出的excel文件：

其实我们只需要前六列，因此我们将其复制粘贴到Excel中，再加入第七列标题state，以后用来记录下载状态。
注意：电脑上必须要有微软的office，否则后面爬虫没法用
三小时爬取四万份年报

简单来讲，我们的爬虫分为这几部分：
1.读取excel数据，获取下载链接
2.发起请求，接收pdf数据
3.把pdf进行存储
我们可以简化一下：
1.读取excel数据，获取下载链接
2.发起请求，接收pdf数据，把pdf进行存储
所以单线程爬虫总共分两步，但是每个文件下载都要等十几秒，效率非常低。

本文使用多线程的思路，多线程就是一心多用，如果你需要扫地，还需要蒸米饭，那你可以先把电饭煲打开，然后去扫地。当你做的每件事情都要等待，一心多用就会大大提高效率。

本文的思路是，把每个下载当成一个任务，先找个”任务管理员”，我们叫他Queue(),把所有下载任务全都告诉他，然后我们一心八用（开八门开八个线程），找Queue()要任务，执行任务，再去要任务，直到Queue()的任务全都派出去执行完了。代码如下：

先把需要的库导入，不需要问为什么

import xlwings as xw
import requests
from queue import Queue
import threading
import os
import time

进行一些初始化操作


    file_path = r'E:\python\firmreport_spider2.0\公司竞争战略指标_2001_2019.xlsx'

    wb = xw.Book(file_path)
    sht = wb.sheets['公司竞争战略指标_2001_2019']

    time.sleep(6)

    info = sht.used_range
    rows = info.last_cell.row
    columns = info.last_cell.column

    q = Queue()

    num_threads = 8

读取数据，提交给任务管理员q


def put_queue():

    lists = sht.range('A1').expand('table').value

    for i in range(1, rows):

        if not lists[i][6]:
            code = str(int(lists[i][0]))
            firm = lists[i][1].replace("*", "")
            url = lists[i][4]
            year = lists[i][2].year
            n = i
            q.put([code, firm, year, url, n])
            print(code, firm, year, url, n)

定义存储路径和文件名称


def get_filepath(code, firm, year):
    file_path = 'E:\\python\\firmreport_spider2.0\\下载年报'
    file_name = "{}-{}-{}年年度报告.pdf".format(code, firm, year)
    file_full_name = os.path.join(file_path, file_name)
    return file_full_name

发送请求,进行下载,然后存储


def download_pdf(url, file_full_name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60'}
    res = requests.get(url, headers=headers)
    with open(file_full_name, "wb") as fp:
        for chunk in res.iter_content(chunk_size=1024):
            if chunk:
                fp.write(chunk)

定义一个线程需要做的事，取任务，设置下载路径并制定文件名，下载存储，队列任务减一


def single():
    while True:

        info = q.get()

        file_full_name = get_filepath(info[0], info[1], info[2])

        download_pdf(info[3], file_full_name)

        xw.Range((info[4]+1, 7)).value = 'YES'

        q.task_done()

最后写一个总的流程

if __name__ == '__main__':

    file_path = r'E:\python\firmreport_spider2.0\公司竞争战略指标_2001_2019.xlsx'

    wb = xw.Book(file_path)
    sht = wb.sheets['公司竞争战略指标_2001_2019']

    time.sleep(6)

    info = sht.used_range
    rows = info.last_cell.row
    columns = info.last_cell.column

    q = Queue()

    num_threads = 8

    for i in range(num_threads):
        t = threading.Thread(target=single)
        t.daemon = True
        t.start()

    put_queue()

    q.join()

所有的代码如下：

import xlwings as xw
import requests
from queue import Queue
import threading
import os
import time

def put_queue():
    lists = sht.range('A1').expand('table').value
    for i in range(1, rows):
        if not lists[i][6]:
            code = str(int(lists[i][0]))
            firm = lists[i][1].replace("*", "")
            url = lists[i][4]
            year = lists[i][2].year
            n = i
            q.put([code, firm, year, url, n])
            print(code, firm, year, url, n)

def get_filepath(code, firm, year):
    file_path = 'E:\\python\\firmreport_spider2.0\\下载年报'
    file_name = "{}-{}-{}年年度报告.pdf".format(code, firm, year)
    file_full_name = os.path.join(file_path, file_name)
    return file_full_name

def download_pdf(url, file_full_name):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36 OPR/26.0.1656.60'}
    res = requests.get(url, headers=headers)
    with open(file_full_name, "wb") as fp:
        for chunk in res.iter_content(chunk_size=1024):
            if chunk:
                fp.write(chunk)

def single():
    while True:
        info = q.get()
        file_full_name = get_filepath(info[0], info[1], info[2])
        download_pdf(info[3], file_full_name)

        xw.Range((info[4]+1, 7)).value = 'YES'
        q.task_done()

if __name__ == '__main__':

    file_path = r'E:\python\firmreport_spider2.0\公司竞争战略指标_2001_2019.xlsx'
    wb = xw.Book(file_path)
    sht = wb.sheets['公司竞争战略指标_2001_2019']
    time.sleep(3)

    info = sht.used_range
    rows = info.last_cell.row
    columns = info.last_cell.column

    q = Queue()
    num_threads = 8

    for i in range(num_threads):
        t = threading.Thread(target=single)
        t.daemon = True
        t.start()

    put_queue()
    q.join()

Original: https://blog.csdn.net/a17695740817/article/details/121297501
Author: 金星python
Title: 三小时爬取四万份年报

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/697152/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

CSS基础选择器,CSS字体属性,CSS文本属性

一.CSS基础选择器 1.1CSS选择器的作用 1.2选择器的分类 1.3标签选择器 1.4类选择器（差异化选择不同的标签） 1.5id选择器（一次性） 1.6 通配符选择器二….

人工智能 2023年6月30日
0067
使用Python的pandas库操作Excel

使用Python的pandas库操作Excel 最近因需要用Excel电子表格处理数据，使用了其它一些方式处理Excel文件数据，这是学习笔记的整理。 Excel2003及以前版：…

人工智能 2023年7月4日
0086
Python中求最大值和最小值max()函数、min()函数

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python中求最大值和最小值 max()函数、m…

人工智能 2023年7月5日
0067
深度学习（波士顿房价预测）

对于预测问题，可以根据预测输出的类型是连续的实数值，还是离散的标签，区分为回归任务和分类任务。因为房价是一个连续值，所以房价预测显然是一个回归任务。下面我们尝试用最简单的线性回归模…

人工智能 2023年6月15日
00103
火力发电行业三大知识图谱应用场景，助力火力发电厂清洁高效智慧化运营

据国家统计局数据显示，2020年全年中国累计发电量达到了74170.4亿千瓦时，其中火力发电量达52798.7亿千瓦时。我国的能源资源禀赋和能源格局使得火力发电依然占据主导地位，…

人工智能 2023年6月1日
0085
3.26 Tensorflow 实验记录

实验1：在一个简单的仅有前向传播与反向传播的过程中，我们发现，无论前向传播的参数(w1,w2)是多少，再训练足够多代之后，都会通过后向传播得到相同的损失率。实验1.1：实…

人工智能 2023年5月24日
0086
01背包问题以及有关题目

一、01背包问题详解确定dp数组以及下标的含义 dp[ i ] [ j ] 表示前 i 件物品放入一个容量为 j 的背包可以获得的最大价值（每件物品最多放一次）确定递推公式 d…

人工智能 2023年7月31日
0058
Python学习之面向对象编程

面向对象编程 1.类和对象类与对象是面向编程的两个主要方面。一个类能够创建一种新的类型（Type），对象（Object）就是类的实例（Instance）。字段（Field）：属…

人工智能 2023年7月9日
0058
（步骤清晰）利用MATLAB工具箱自动整定SIMULINK PID参数

目录一、背景二、工具三、实例（1）在SIMULINK中的操作 ① 在SIMULNK建立仿真模型，PID随意设置参数 ② 设置待自适应调节PID的SIMULINK仿真的输入…

人工智能 2023年6月15日
00135
基于MK-MMD度量迁移学习的轴承故障诊断方法研究

摘要上一篇文章实验是基于凯斯西厨大学轴承数据集，使用同一负载情况下的6种轴承数据进行故障诊断，并没有进行不同负载下轴承故障诊断。之前没做这块迁移学习实验，主要是对于迁移学习理解不…

人工智能 2023年5月23日
0082
在用bert时遇到的bug以及解决记录

（1）cannot import name ‘to_categorical’ from ‘keras.utils’ 原代码位置： f…

人工智能 2023年5月26日
0080
集显安装pytorch教程

集显看最下面首先GPU安装教程 1.安装Anaconda（这个是可以安装环境和前置的软件)，这个网址是清华源下载，可以去官网下载 Index of /anaconda/archi…

人工智能 2023年7月22日
0061
《嵌入式 – 语音识别TWen-ASR-ONE开发笔记》第5章 TWen-ASR-ONE 串口使用

5.1 TWen-ASR-ONE 串口简介串口在这里不再重复，相信从事过嵌入式的朋友都会经常用到它。 [En] I will not repeat the serial port…

人工智能 2023年5月23日
0078
ubuntu18.04安装Autoware1.14—GPU版最全环境配置说明

ubuntu18.04安装Autoware1.14—GPU版最全环境配置说明本机配置所需软件配置配置安装 * 1. Nvidia 驱动安装 2 .cmake安装…

人工智能 2023年6月1日
0096
Pandas、Numpy和Python内置函数Del删除指定行、列

pandas 删除某一行/列，采用drop函数： DataFrame.drop(labels=None,axis=0, index=None, columns=None, inpl…

人工智能 2023年7月7日
0072
【边缘检测】基于matlab八方向sobel图像边缘检测【含Matlab源码 1865期】

⛄一、八方向Sobel算子的边缘检测算法简介 1 引言随着数字图像的广泛应用, 对图像精度的要求也逐步提高。边缘是目标图像与背景图像的分界, 是图像最基本的特征之一。图像边缘蕴含了…

人工智能 2023年6月17日
0073

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

三小时爬取四万份年报

大家都在看