python中scrapy是什么_python爬虫中scrapy组件有哪些？作用是什么？

2023年10月5日上午11:22 • Python • 阅读 51

python中scrapy是什么_python爬虫中scrapy组件有哪些？作用是什么？

最近苹果12的消息一直活跃，连小编这种不是果粉的人都知道了。虽然苹果是一部性能不错的手机，但是它各个零件却是来源于不同的地方，可见再好的成品也是需要不同零件支撑的。那么，python爬虫中scrapy组件有哪些奇妙的用处呢？感兴趣的小伙伴一起进入我们今天的学习吧。

Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。详细内容查看下面的数据流(Data Flow)部分。

调度器(Scheduler)

调度器从引擎接受request并将他们入队，以便之后引擎请求他们时提供给引擎。

下载器(Downloader)

下载器负责获取页面数据并提供给引擎，而后提供给spider。

Spiders

Spider是Scrapy用户编写用于分析response并提取item(即获取到的item)或额外跟进的URL的类。每个spider负责处理一个特定(或一些)网站。

Item Pipeline

Item Pipeline负责处理被spider提取出来的item。典型的处理有清理、验证及持久化(例如存取到数据库中)。

下载器中间件(Downloader middlewares)

下载器中间件是在引擎及下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

Spider中间件(Spider middlewares)

Spider中间件是在引擎及Spider之间的特定钩子(specific hook)，处理spider的输入(response)和输出(items及requests)。其提供了一个简便的机制，通过插入自定义代码来扩展Scrapy功能。

数据流过程引擎打开一个网站(open a domain)，找到处理该网站的Spider并向该spider请求第一个要爬取的URL(s)。

引擎从Spider中获取到第一个要爬取的URL并在调度器(Scheduler)以Request调度。

引擎向调度器请求下一个要爬取的URL。

调度器返回下一个要爬取的URL给引擎，引擎将URL通过下载中间件(请求(request)方向)转发给下载器(Downloader)。

一旦页面下载完毕，下载器生成一个该页面的Response，并将其通过下载中间件(返回(response)方向)发送给引擎。

引擎从下载器中接收到Response并通过Spider中间件(输入方向)发送给Spider处理。

Spider处理Response并返回爬取到的Item及(跟进的)新的Request给引擎。

引擎将(Spider返回的)爬取到的Item给Item Pipeline，将(Spider返回的)Request给调度器。

(从第二步)重复直到调度器中没有更多地request，引擎关闭该网站。

scrapy组件的种类不少，但是介绍和使用不是很复杂，想必小伙伴们也看出来了。基础的python爬虫知识重点还是在于记忆，怕忘记的可以用文本保存哦~更多Python学习推荐:JQ教程网Python大全。

Original: https://blog.csdn.net/weixin_39747296/article/details/113501138
Author: weixin_39747296
Title: python中scrapy是什么_python爬虫中scrapy组件有哪些？作用是什么？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791745/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django-Import-Export插件控制数据导入流程

之前写过两篇跟这个插件有关的文章，可以回顾一下：最近有个朋友留言问我一个关于django-import-export插件的问题为了形象表达这个问题，我举个书籍管理的例子来描述一…

Python 2023年10月23日
0045
CobaltStrike上线Linux

为获得最佳的阅读体验，请访问我的个人主页: https://xzajyjs.cn/ 在红蓝对抗中，我们常需要对目标进行长时间的控制， cobaltstrike原生对于上线 wind…

Python 2023年6月12日
0086
DJANGO详情

http请求首先到达wsgi服务器，解析封装为request对象，交给web框架处理在框架中，中间件对请求进行进一步处理(例如：csrf、session (赛神)、路由匹配) …

Python 2023年8月4日
0038
python中texttable库显示实时数据_Python Matplotlib.pyplot.table()用法及代码示例

Matplotlib.pyplot.table()是matplotlib库的子部分，其中使用绘制的图形进行分析以生成表格。由于表格比图形提供了更精确的详细信息，因此该方法使分析更容…

Python 2023年9月4日
0043
7 行代码搞崩溃 B 站，原因令人唏嘘！

前不久，哔哩哔哩（一般常称为 B 站）发布了一篇文章《2021.07.13 我们是这样崩的》，详细回顾了他们在 2021.07.13 晚上全站崩溃约 3 小时的至暗时刻，以及万分紧…

Python 2023年11月1日
0076
Allure在Pytest自动化测试框架中的基本应用

一、简介简而言之 Allure是一个灵活的轻量级多语言测试报告工具，它可以通过简洁的Web报告形式显示了已测试内容详情，并允许使用者自由定制想要提取信息。详见参考指南文档：htt…

Python 2023年9月10日
0034
python dataframe mean_Python之DataFrame数据处理

说明 DataFrame是Pandas库中处理表的数据结构，可看作是python中的类似数据库的操作，是Python数据挖掘中最常用的工具。下面介绍DataFrame的一些常用方法…

Python 2023年8月7日
0038
Python 3.12 目标：还可以更快！

按照发布计划，Python 3.11.0 将于 2022 年 10 月 24 日发布。据测试，3.11 相比于 3.10，将会有 10-60% 的性能提升，这个成果主要归功于&#…

Python 2023年10月20日
0038
聊天尬死名场面，你遇到过吗？教你一键获取斗图表情包，晋升聊天达人

大家好呀，我是辣条。写这篇文章的灵感来源于之前和朋友的聊天，真的无力吐槽了，想发适合的表情包怼回去却发现收藏的表情包就那几个，就想着是不是可以爬取一些表情包，再也不用尬聊了。先…

Python 2023年8月3日
0043
基于Python3-Pygame的乒乓球游戏

游戏界面截图： ; 按键控制：空格：暂停/开始W：上S：下游戏玩法说明：开始游戏之后，按键盘W/S按键控制球拍上下移动，接住球即可继续游戏，没接住的话游戏结束。结束后按…

Python 2023年9月20日
0063
ChatGPT：当向聊天机器人问起编程问题的时候

目录 0. 前言 1. 10个编程操作 * 1.1 MATLAB怎么检测鼠标所在的位置坐标 1.2 MATLAB获取系统时间 1.3 MATLAB怎么跳过报错程序 1.4 MATL…

Python 2023年11月3日
0058
银行业务系统数据库设计与实现

银行业务系统数据库的设计与实现 Drop database if EXISTS bankDB; #删除bindDB数据库，即使没有数据库也不报错 CREATE database b…

Python 2023年11月8日
0070
label studio 结合 MMDetection 实现数据集自动标记、模型迭代训练的闭环

前言一个 AI 方向的朋友因为标数据集发了篇 SCI 论文，看着他标了两个多月的数据集这么辛苦，就想着人工智能都能站在围棋巅峰了，难道不能动动小手为自己标数据吗？查了一下还真有一…

Python 2023年10月14日
0035
软件使用笔记

点击file->preference: 选择 configure conda ： always_yes: true channels: – def…

Python 2023年9月25日
0025
基于关联规则算法实现电影推荐系统

基于关联规则算法实现电影推荐系统利用数据挖掘算法中的Apriori(关联规则)算法来实现一个电影推荐系统加载数据数据预处理生成频繁项集、关联规则通过关联规则生成电影推荐的…

Python 2023年10月29日
0028
scrapy — CrawlSpider类

CrawlSpider类是什么？是Spider的一个子类区别： Spider是获取到URL进行手动发送请求： yield scrapy.Request(url=new_ur…

Python 2023年11月3日
0038

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

python中scrapy是什么_python爬虫中scrapy组件有哪些？作用是什么？

大家都在看