Scrapy 框架架构

2023年10月1日上午7:03 • Python • 阅读 34

Scrapy 框架架构

前言

Scrapy (/ˈskreɪpaɪ/) 是一个用于抓取网站和提取结构化数据的应用程序框架，可用于如数据挖掘、信息处理，网络爬虫。
scrapy基于异步框架实现的（Twisted）

这一节我们学习一下这个框架的基本架构，了解一下各组件是如何交互的。

一、核心组成

引擎（Engine）：引擎负责控制系统所有组件之间的数据流。自动运行，无需关注。
调度器（Scheduler）：接收来自引擎的请求，放在队列中，需要时在按一定次序交给引擎。
下载器（Downloader）：获取请求信息后，从网络获取数据并返回响应。
爬虫（Spiders）：我们操作最多的部分，用于解析下载器返回的响应。
管道（Item Pipeline）：处理爬虫解析好的数据，例如数据持久化（存入数据库），查重等。
下载中间件（Downloader middlewares）：处理引擎发来的请求和下载器发出的响应。
爬虫中间件（Spider middlewares）：处理进入spider的响应和出spider的数据或新请求。

二、数据流

对照上面的图片：

引擎从Spider获取初始请求。
引擎请求调度器，并准备下一次请求的抓取
调度器将请求交给引擎
引擎发出请求经过下载中间件交给下载器
下载完成后，下载器返回响应再次经过下载中间件交给引擎
引擎接收来自下载器的请求，经过爬虫中间件发送给爬虫进行处理
爬虫处理响应返回数据item，或者新请求交给引擎，中间还会经过爬虫中间件。
引擎将item发送给管道，新请求发送给调度器等待调度
从第三步进行循环，直到调度其中没有请求

并不是所有部分我们都需要关注，这些组成中引擎，下载器和调度器，是不需要我们编写的。我们的重点在其他部分。

; 三、项目结构

接下来我们了解一下创建项目后的结构，在需要存储代码的目录下运行终端cmd： scrapy startproject 爬虫名称
完成后我们会发现已经出现了项目目录，内容如下：

爬虫名称/
    scrapy.cfg

    爬虫名称/
        __init__.py

        items.py

        middlewares.py

        pipelines.py

        settings.py

        spiders/
            __init__.py

总结

本节介绍了Scrapy框架的基础知识，各部分具体如何实现后面会讲，但是这节要理解掌握工作流程，这有助于后面工作的进行。

Original: https://blog.csdn.net/lizhixin200/article/details/124184334
Author: 不一样的鑫仔
Title: Scrapy 框架架构

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788570/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python图形界面化编程GUI（六）坦克大战（二）

坦克大战（二）完善子弹类子弹出现的方向要跟坦克的方向一致，也就是子弹要从坦克的炮嘴里发射出去。 坦克方&amp…

Python 2023年9月22日
0070
mplayer+科大讯飞离线语音包

文章目录【1】mplayer 【2】科大讯飞离线语音包 ; 【1】mplayer 1.将mplayer放到开发板的bin目录下 system(“mplayer 1.a…

Python 2023年11月7日
0079
Python | 内置函数(BIF)

Python内置函数 | V3.9.1 | 共计155个还没学完, 还没记录完, 不知道自己能不能坚持记录下去 1.ArithmeticError 2.AssertionErro…

Python 2023年5月24日
0092
Python学习：获取代理ip以及使用

python爬虫浏览器伪装 #导入urllib.request模块 import urllib.request #设置请求头 headers=("User-Agent&q…

Python 2023年10月31日
0044
Python CSV 合并到多个sheet工作表

目标将多个CSV文件，合并到一个Excel文件中的，多个sheet工作表。前言网上大多方法都是将csv 直接合并在一起，也不分别创建sheet表。还有一些解答说CSV不支持合…

Python 2023年8月17日
0037
Flask框架

Flask介绍 Flask是一个用Python编写的Web应用程序框架。它由Armin Ronacher开发，他领导着一个名为Pocco的Python爱好者的国际组织。Flask…

Python 2023年8月11日
0067
带你从0到1开发AI图像分类应用

摘要：通过一个垃圾分类应用的开发示例，介绍AI Gallery在AI应用开发流程中的作用。现如今，人工智能（AI）技术在计算机领域内，得到了越来越广泛的重视，并在各行各业中得到应…

Python 2023年10月28日
0050
数据科学库学习–pandas常用数据类型，loc方法，pandas缺失值处理

pandas的常用数据类型 pandas是基于numpy数组构建的，但二者最大的不同是pandas是专门为处理表格和混杂数据设计的，比较契合统计分析中的表结构，而numpy更适合处…

Python 2023年8月8日
0073
Django回顾之_04_模型关系及相关操作

模型类关系 1）一对多关系例：图书类-英雄类 models.ForeignKey() 定义在多的类中。 2）多对多关系例：新闻类-新闻类型类体育新闻新闻类型类 clas…

Python 2023年6月9日
0069
Python数据分析–Numpy常用函数介绍(8)–Numpy中几中常见的图形

在NumPy中，所有的标准三角函数如sin、cos、tan等均有对应的通用函数。一、利萨茹曲线（Lissajous curve）利萨茹曲线是一种很有趣的使用三角函数的方式(示波…

Python 2023年5月24日
0074
pandas的Groupby学习心得(不断更新）

分组键可以有多种形式，且类型不必相同：列表或数组，其长度与待分组的轴一样。表示DataFrame某个列名的值。字典或Series，给出待分组轴上的值与分组名之间的对应关系。 …

Python 2023年8月8日
0037
L19python-核心编程-飞机大战（day3、4）

2 0h2zm 2 13a1 1 0 1 0 2 0H9zm.447 12.167a1 1 0 1 0 1.107 1.666L9.447 3.086zM1 2.253L.447 …

Python 2023年9月18日
0046
python借助pandas处理大数据中的csv.

目录怎样利用pandas导入csv 怎样访问csv的某一行? 怎样访问csv的前几行? 怎样访问csv的某列? 怎样在大数据中精确查找值? 怎样提取某列不重复数据？怎样合并几列…

Python 2023年8月8日
0043
机器学习——贝叶斯分类器

这里写目录标题 * – 1.贝叶斯分类器属于生成式模型 – 2.贝叶斯定理 – 3.朴素贝叶斯分类器 – + 3.1朴素贝叶斯分类器…

Python 2023年10月9日
0032
程序员自制游戏：超级玛丽100%真实版，能把你玩哭了~【附源码】

导语🎁 哈喽！哈喽！我是木木子😎，今日游戏更新—— 超级玛丽华丽上线🎊啦！ “超级玛丽“有多少人还记得这款经典游戏？对于90、00后应该不大熟悉，但多多少少…

Python 2023年9月17日
0059
pytorch1.7.1+cuda10.1+cudnn7.6.3(在conda虚拟环境下安装cuda+cudnn)

实验室的linux服务器有多人使用，因此无法升级显卡驱动，并且cuda只有10.1（没安装cudnn）。最近在跑一个程序，调用cuda了，但是pytorch训练的很慢（之前用过te…

Python 2023年9月8日
0051

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy 框架架构

Scrapy 框架架构

目录

前言

一、核心组成

二、数据流

; 三、项目结构

总结

大家都在看