Python基础之Scrapy进阶

2023年10月5日下午12:45 • Python • 阅读 69

在上一篇文章Python基础之Scrapy简介中，简述了Scrapy的基本原理，安装步骤，创建项目以及如何通过Scrapy进行简单的爬虫，同时遗留了两个问题，即分页爬取，和异步内容爬取。本文以一个简单的爬取某股票网站为例，简述Scrapy在分页和接口数据爬取的相关应用，仅供学习分享使用，如有不足之处，还请指正。

Scrapy架构图

关于Scrapy架构图，如下所示：绿线是数据流向

关于Scrapy架构各项说明，如下所示：

Scrapy Engine(引擎): 负责 Spider、ItemPipeline、Downloader、Scheduler 中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的 Request 请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载 Scrapy Engine(引擎)发送的所有 Requests 请求，并将其获取到的 Responses 交还给 Scrapy Engine(引擎)，由引擎交给 Spider 来处理，
Spider（爬虫）：它负责处理所有 Responses,从中分析提取数据，获取 Item 字段需要的数据，并将需要跟进的 URL 提交给引擎，再次进入 Scheduler(调度器)，
Item Pipeline(管道)：它负责处理 Spider 中获取到的 Item，并进行进行后期处理（详细分析、过滤、存储等）的地方。
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider 中间件）：你可以理解为是一个可以自定扩展和操作引擎和 Spider 中间通信的功能组件（比如进入 Spider 的 Responses;和从 Spider 出去的 Requests）

目标分析

本次爬取的是某财富网站的沪深A股，共232页，如下所示：

在Chrome浏览器，通过开发者工具（F12），进行分析，发现我们需要爬取的内容，均在id为table_wraper_table中，如下所示：

通过以上分析，似乎已经胜利在望，但通过查询源代码，发现网址请求到的页面中，table是空的，并没有我们想要的股票数据内容，如下所示：

通过以上步骤的排查，说明所见即所得，有时也不一定通用。既然页面不是一次请求获取的，那么就可能是通过ajax的方式异步获取的，需要进一步排查Network，即网络请求信息。继续排查跟踪网络请求信息，发现股票信息是通过以下接口获取的，返回的是json格式的字符串，我们获取对应内容后，只需要解析json即可获取相应的数据，如下所示：

通过分析接口请求的url，发现对应的页码和每页请求条数，即可以变化的量，对于多页，则轮询并替换即可，如下所示：

创建爬虫

在之前stockstar项目的基础上，再次创建一个爬虫，如下所示：

Scrapy爬虫开发

通过命令行创建项目后，基本Scrapy爬虫框架已经形成，剩下的就是业务代码填充。

定义爬取内容

定义需要爬取哪些字段内容，如下所示：

Define here the models for your scraped items
#
See documentation in:
https://docs.scrapy.org/en/latest/topics/items.html

import scrapy

class StockstarItem(scrapy.Item):
"""
    定义需要爬取的字段名称
"""
    # define the fields for your item here like:
    # name = scrapy.Field()
    stock_type = scrapy.Field()  # 股票类型
    stock_id = scrapy.Field()  # 股票ID
    stock_name = scrapy.Field()  # 股票名称
    stock_price = scrapy.Field()  # 股票价格
    stock_chg = scrapy.Field()  #  涨跌幅

定制业务逻辑

Scrapy的爬虫结构是固定的，定义一个类，继承自scrapy.Spider，类中定义属性【爬虫名称，域名，起始url】，重写父类方法【parse】，根据需要爬取的页面逻辑不同，在parse中定制不同的爬虫代码，如下所示：

class EastmoneySpider(scrapy.Spider):
    name = 'eastmoney'
    allowed_domains = ['eastmoney.com/']
    start_urls = [
        'http://**.****.********.com/api/qt/clist/get?cb=jQuery112405581218321729968_1630076590847&pn=1&pz=20&po=1&np=1&fields=f1,f2,f3,f4,f5,f6,f7,f8,f9,f10,f12,f13,f14,f136,f115,f152&_=1630076590848']
    index = 1

    def parse(self, response):
        item = StockstarItem()
        text = response.text
        text = text[text.find('(') + 1:]  # 去掉小括号前面的
        text = text[0:-2]  # 去掉小括号后面的
        # print(text)  #  此处用于打印处理好的原始字符
        obj = json.loads(text)
        print('********************本次抓取第' + str(self.index) + '页股票********************')
        data = obj['data']
        total = data['total']
        diffs = data['diff']
        total_page = total / 20
        if total % 20 > 0:
            total_page += 1  # 如果求模大于0，则也码加1
        for diff in diffs:
            item['stock_type'] = '沪深A股'
            item['stock_id'] = str(diff['f12'])
            item['stock_name'] = str(diff['f14'])
            item['stock_price'] = str(diff['f2'])
            item['stock_chg'] = str(diff['f3']) + '%'
            yield item
        # 当第一页解析完，进行下一页解析
        self.index += 1
        print('总页码:' + str(total_page))
        if self.index

注意：为了不泄露目标网站，爬取地址做了模糊处理

数据处理

在Pipeline中，对抓取的数据进行处理，本例为简便，在控制进行输出，如下所示：

class StockstarPipeline:
    def process_item(self, item, spider):
        str_item = '股票类型:'+item['stock_type']+'    股票代码:'+item['stock_id']+'    股票名称:'+item['stock_name']+'    股票价格:'+item['stock_price']+'    股票涨跌幅:'+item['stock_chg']
        print(str_item)  # 打印
        self.save_data(str_item)  # 保存
        return item

    def save_data(self,str_item):
"""
        保存数据
        :param str_item: 保存的内容文件
        :return:
"""
        with open('stocks.txt', 'a', encoding='utf-8') as f:
            f.write(str_item+'\n')

注意：在对item进行赋值时，只能通过item[‘key’]=value的方式进行赋值，不可以通过item.key=value的方式赋值。

Scrapy运行

因scrapy是各个独立的页面，只能通过终端命令行的方式运行，格式为： scrapy crawl 爬虫名称，如下所示：

scrapy crawl eastmoney

结果展示

本文爬取的内容，存储在文本文件中，可以用于后续的进一步分析，如下所示：

备注

以上就是Scrapy爬取异步内容，及多页爬取的简单介绍，希望能够抛转引玉，共同学习。

夏日南亭怀辛大

【作者】孟浩然【朝代】唐

山光忽西落，池月渐东上。
散发乘夕凉，开轩卧闲敞。
荷风送香气，竹露滴清响。
欲取鸣琴弹，恨无知音赏。
感此怀故人，中宵劳梦想。

Original: https://blog.csdn.net/fengershishe/article/details/119974046
Author: 小六公子
Title: Python基础之Scrapy进阶

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791791/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas 数据结构之 DataFrame使用教程

Pandas 数据结构 DataFrame 简介 DataFrame 实例化行数据的选择 * 1.按位置选择行数据（单行选择） 2.按位置选择行数据（多行选择：类似于切片） 3….

Python 2023年8月7日
0059
Python_去重

Python_去重原创六mo神剑2022-07-18 15:15:00博主文章分类：Python ©著作权文章标签数据转换数据 python 文章分类 Python 后端…

Python 2023年5月25日
0079
flask框架中数据库字段更新，AttributeError: ‘str‘ object has no attribute ‘filename‘

一年前用flask框架开发了一个后台管理系统，最近想在某个新增和修改页面增加一个上传附件的功能，由于常久没用，基本忘的差不多了，花了2个小时解决了问题。要加字段就需要改动以下四个…

Python 2023年8月10日
0053
python写的2048游戏，源代码，pygame

代码全是自己写的注释（怕以后自己再回头看自己写的看不懂）所有的逻辑基本都写在注释里了代码肯定不是最简洁的，包含注释400行了但是应该是相对来说很容易看懂的毕竟自己作为…

Python 2023年9月18日
0049
Appuim并发多进程基于pytest测试框架进行兼容性测试

在实际工作中，如果要用appium实现多设备的兼容性测试，大家想到的也许是”多线程”，但由于python中GIL的影响，多线程并不能做到”多机并…

Python 2023年9月12日
0070
Pandas查询选取数据

一，Pandas查询数据的几种方法二，Pandas使用df.loc查询数据的方法 df[] #获取c1，c2两列df[[‘c1′,’c2&#8…

Python 2023年8月6日
0058
【计算机视觉】图像分割与特征提取——基于Roberts、Prewitt、Sobel算子的图像分割实验

个人简介： 📦个人主页：赵四司机🏆学习方向：JAVA后端开发⏰往期文章：SpringBoot项目整合微信支付🔔博主推荐网站：牛客网刷题|面试|找工作神器📣种一棵树最好的时间是十年…

Python 2023年9月15日
0092
python小游戏

import sys import pygame import random class Bird(object): “””定义一个鸟类&#82…

Python 2023年9月17日
0062
第五章 ndarray的重塑、组合和拆分

使用 numpy 提供的方法，我们可以改变 ndarray 的维度数，比如将一维的数组重塑成二维的数组，例如： >>> import numpy as np &g…

Python 2023年8月28日
0064
Pygame入门 2022 （3）

Python 2023年5月24日
00100
猿创征文｜那些年我们追过的那些技术

那些年编程语言之争 11年正式进入IT行业，成为一名程序员。那时候的技术圈还停留在语言之争上，那时候争论的是到底谁是世界上最好的编程语言，php说过自己是世界上最好的语言，C#说…

Python 2023年11月5日
0048
【Python】抓取基金数据

Original: https://www.cnblogs.com/123456feng/p/16077203.htmlAuthor: 蚂蚁ailingTitle: 【Python…

Python 2023年5月24日
0083
接口Mock测试结合postman运用

目录一、接口Mock测试 1.1 基本概念 1.2实现方式二、Moco框架 2.1 Moco介绍 2.1.1 环境搭建 2.1.2 Moco运行 2.2常用参数配置 2.2.1…

Python 2023年8月9日
0078
Python操作lxml库（基础篇）

活动地址：CSDN21天学习挑战赛学习的最大理由是想摆脱平庸，早一天就多一份人生的精彩；迟一天就多一天平庸的困扰。 ; 学习日记目录目录学习日记一、lxml库概述 1、l…

Python 2023年8月1日
0071
哈工大深圳计算机学院老师信息的爬取

目录 1.实验目标概述 2.实验环境配置 3.实验过程 3.1Scrapy框架的使用介绍 3.1.1Scrapy架构图 3.1.2 Item Pipeline 3.1.3Spide…

Python 2023年10月2日
0059
python包介绍：numpy

1 ndarray 相比于python中的list，ndarray的核心优势就是运算快 Numpy 喜欢用电脑内存中连续的一块物理地址存储数据 Python 的 List 并不是连…

Python 2023年8月29日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31