Scrapy 源码分析 1 架构概览

2023年10月6日下午10:22 • Python • 阅读 35

1 Scrapy 简介

使用Scrapy的版本为 2.5.0

使用 Scrapy 开发一个爬虫非常简单，这里使用 Scrapy 的例子来说明如何编写一个简单爬虫：

import scrapy

class IfengSpider(scrapy.Spider):
    name = 'ifeng'
    allowed_domains = ['ifeng.com']
    start_urls = ['https://ifeng.com/']

    def parse(self, response, **kwargs):
        requests = response.follow_all(xpath='//ul[@id="nav"]/li/a/@href')
        print(list(requests))
        for row in response.xpath('//ul[@id="nav"]/li/a/@href').extract():
            yield {
                "url": row,
            }
        pass

简单来讲，编写和运行一个爬虫只需以下几步：

使用 scrapy startproject 命令创建一个爬虫模板，或自己按模板编写爬虫代码
定义一个爬虫类，并继承 scrapy.Spider，然后重写 parse 方法
parse 方法里编写网页解析逻辑，以及抓取路径
使用 scrapy runspider <spider_file.py></spider_file.py> 运行这个爬虫

可见，使用 Scrapy 编写简单的几行代码，就能采集到一个网站页面的数据，非常方便。

但是在这背后到底发生了什么？Scrapy 到底是如何帮助我们工作的呢？

2 架构

要想知道 Scrapy 是如何工作的，首先我们来看一下 Scrapy 的架构图，从宏观角度来了解一下它是如何运行的：

从架构图可以看到，Scrapy 主要包含以下五大模块：

Scrapy Engine：核心引擎，负责控制和调度各个组件，保证数据流转；
Scheduler：负责管理任务、过滤任务、输出任务的调度器，存储、去重任务都在此控制；
Downloader：下载器，负责在网络上下载数据，输入待下载的 URL，输出下载结果；
Spiders：我们自己编写的爬虫逻辑，定义抓取意图；
Item Pipeline：负责输出结构化数据，可自定义格式和输出的位置；

如果你观察地比较仔细的话，可以看到还有两个模块：

Downloader middlewares：介于引擎和下载器之间，可以在网页在下载前、后进行逻辑处理；
Spider middlewares：介于引擎和爬虫之间，在向爬虫输入下载结果前，和爬虫输出请求 / 数据后进行逻辑处理；
Extensions : 处于整个流程当中,主要提供一些辅助和状态统计;

了解了这些核心模块，我们再来看使用 Scrapy 时，它内部的采集流程是如何流转的，也就是说各个模块是如何交互协作，来完成整个抓取任务的。

3 核心模块的协作

可见，Scrapy 的架构图还是比较清晰的，各个模块之间互相协作，完成抓取任务。

我在读完它的源码后，整理出了一个更详细的核心模块交互图，其中展示了更多模块的相关细节，你可以参考一下：

4 核心类图

对于这个核心类图简单解释一下：

没有样式的黑色文字是类的核心属性；
标有黄色样式的高亮文字是类的核心方法；

你在读源码的过程中，可以针对这些核心属性和方法重点关注。

结合官方架构图以及我总结的核心模块交互图、核心类图，我们可以看到，Scrapy 涉及到的组件主要包括以下这些。

五大核心类： Scrapy Engine、 Scheduler、 Downloader、 Spiders、Item Pipeline；
四个中间件管理器类： DownloaderMiddlewareManager、 SpiderMiddlewareManager、 ItemPipelineMiddlewareManager、 ExtensionManager；
其他辅助类： Request、 Response、 Selector；

我们先对 Scrapy 整个架构有一个初步认识，在接下来的文章里，我会针对上述的这些类和方法进行更加详细的源码讲解。

Original: https://blog.csdn.net/u010154424/article/details/123652034
Author: ？？？？？
Title: Scrapy 源码分析 1 架构概览

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792898/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

强化学习-学习笔记9 | Multi-Step-TD-Target

这篇笔记依然属于TD算法的范畴。Multi-Step-TD-Target 是对 TD算法的改进。 9. Multi-Step-TD-Target 9.1 Review Sarsa …

Python 2023年10月29日
0044
Python极客项目编程中文PDF完整版入门到精通

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

Python 2023年5月23日
0070
Python 命令行参数详解

Python 命令行参数详解 * – 0. 命令行参数 – 1. sys.argv – 2. getopt – + 2.1 geto…

Python 2023年8月1日
0072
scrapy-redis mysql_scrapy使用五：scrapy配置mysql、mongodb和redis

一、配置MYSQL 修改settings.py start MySQL database configure setting MYSQL_HOST= ‘localhos…

Python 2023年10月6日
0033
python练习7——PTA

小明在帮助老师统计成绩，老师给他的是一组数据。数据的第1行代表学生数n，后面的n行代表每个学生的成绩。成绩是整数类型。小明编写了一个程序，该程序可以批量处理数据，统计所有学生的平均…

Python 2023年8月3日
0047
python定时播放音乐程序_python实现定时播放mp3

python实现定时播放mp3 程序很简单，主要是 mp3play 模块的应用 import mp3play, time filename = “Should It M…

Python 2023年9月21日
0048
【爬虫】scrapy创建运行爬虫、解析页面（嵌套url）、自定义中间件（设置UserAgent和代理IP）、自定义管道（保存到mysql）

1.说明 scrapy是一个快速、高层次的屏幕抓取和web抓取框架，我们只需要在乎怎么提取数据和保存数据，其他的都交给scrapy完成，所以比较快速高效，而且功能强大，很多东西都是…

Python 2023年10月2日
0057
第3课：if、while

在Python中，井号（#）比较特殊：在代码中，井号后面到行尾的所有内容都将被忽略。下面是一个示例：这一行为注释。注释让程序更容易理解。注释务必言而有物，不要重复去讲通过代码很容…

Python 2023年9月19日
0054
scrapy基础学习

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月1日
0039
利用支持向量机(SVM)进行分类的Matlab实现

文章目录前言一、支持向量机是什么？二、步骤 * 1.构建特征矩阵和类标签 2.使用fitcsvm函数训练svm 3.使用predict函数验证svm 4.完整代码总结前言…

Python 2023年8月1日
0049
酒店数据分析预处理pandas

#酒店数据预处理 import pandas as pd import numpy as np #读取香港酒店数据 df = pd.read_excel(‘./香港酒店数据.xls…

Python 2023年8月7日
0056
深度学习之快速实现数据集增强的方法

我们在深度学习训练之前准备数据集的时候，特别是打标注的数据集，需要耗费大量的人力物力打标签，在打完的基础我们还可以直接对数据集进行二次增强，即数据集增强。目录一、常用的数据集…

Python 2023年9月28日
0062
python matplotlib画折线图出现连线混乱_python使用matplotlib绘制折线图教程

matplotlib 是python最著名的绘图库，它提供了一整套和matlab相似的命令API，十分适合交互式地行制图。而且也可以方便地将它作为绘图控件，嵌入GUI应用程序中。 …

Python 2023年9月4日
0092
Django开发实战BBS（一）

创建应用运行的虚拟环境：virtualenv bbs_python37 进入bbs_python37文件目录，启动虚拟环境：activate 退出：deactivate 先开启服务…

Python 2023年8月4日
0049
python 数据合并函数 merge, concat, append的使用方法比较小结

概述数据分析中经常会遇到数据合并的基本问题：1. 数据或表格的上下连接；2. 数据或表格的左右连接。根据上述问题，本文总结了python中的表格合并函数的基本用法和使用效果： m…

Python 2023年8月7日
0079
numpy.pad使用详解

numpy中pad的用法在机器学习中经常用到pad进行数据的预处理，对原本的矩阵进行填充，具体用法如下： numpy.pad(array, pad_width, mode=’co…

Python 2023年8月29日
0056

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy 源码分析 1 架构概览

1 Scrapy 简介

2 架构

3 核心模块的协作

4 核心类图

大家都在看