python爬虫-scrapy五大核心组件和中间件

文章目录

一、scrapy五大核心组件

下面这张图我们在python爬虫-scrapy基本使用见到过,下面就稍微介绍一下scrapy的五大核心组件和中间件

python爬虫-scrapy五大核心组件和中间件

; Spiders(爬虫)

Spiders是用户需要编辑的代码的主要部分。用户通过编写 spider.py这个类实现爬取指定网站地址、定义网址过滤规则、解析目标数据等。 Spider 发出请求,并处理Scrapy引擎返回给它 下载器响应数据,把解析到的数据以item的形式传递给ItemPipeline,把解析到的链接传递给Scheduler。

Scrapy Engine(Scrapy引擎)

Scrapy 引擎是用来控制整个系统的数据处理流程,并进行不同事务触发,是scrapy框架的核心。

Scheduler(调度器)

调度器包含 过滤器和一个url队列,调度器接受引擎发过来的请求,由 过滤器过滤重复的url并将其压入url队列中,当引擎再次请求时,从url队列中取出下一个url返回给引擎

Downloader

Original: https://blog.csdn.net/m0_46500590/article/details/113850025
Author: 小王子爱上玫瑰
Title: python爬虫-scrapy五大核心组件和中间件

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/790487/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球