文章目录
- 一、scrapy五大核心组件
*
– - 二、工作流程
- 三、中间件
*
–
一、scrapy五大核心组件
下面这张图我们在python爬虫-scrapy基本使用见到过,下面就稍微介绍一下scrapy的五大核心组件和中间件
; Spiders(爬虫)
Spiders是用户需要编辑的代码的主要部分。用户通过编写 spider.py
这个类实现爬取指定网站地址、定义网址过滤规则、解析目标数据等。 Spider 发出请求,并处理Scrapy引擎返回给它 下载器响应数据,把解析到的数据以item的形式传递给ItemPipeline,把解析到的链接传递给Scheduler。
Scrapy Engine(Scrapy引擎)
Scrapy 引擎是用来控制整个系统的数据处理流程,并进行不同事务触发,是scrapy框架的核心。
Scheduler(调度器)
调度器包含 过滤器和一个url队列,调度器接受引擎发过来的请求,由 过滤器过滤重复的url并将其压入url队列中,当引擎再次请求时,从url队列中取出下一个url返回给引擎
Downloader
Original: https://blog.csdn.net/m0_46500590/article/details/113850025
Author: 小王子爱上玫瑰
Title: python爬虫-scrapy五大核心组件和中间件
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/790487/
转载文章受原作者版权保护。转载请注明原作者出处!