Scrapy-middlewares对象

2023年10月4日上午5:14 • Python • 阅读 45

Scrapy的中间件分为Download Middleware和Spider Middleware

下载中间件，他是处于Request和Response中间的处理模块

Scheduler调度器从队列中拿出一个Request发送给Downloader执行下载，这个过程会经过Downloader Middleware的处理。另外，当Downloader将Request下载完成得到Response返回给Spider时会再次经过Downloader Middleware处理。所以整个架构中Download Middleware能起到的作用有以下两个

在Request执行下载之前，对我们的Request请求进行修改

下载后生成的Response发送给Spider之前，也就是我们可以在生成Resposne被Spider解析之前对其进行修改

需要说明的是，Scrapy其实已经提供了许多Downloader Middleware，比如负责失败重试、自动重定向等功能的Middleware，它们被DOWNLOADER_MIDDLEWARES_BASE变量所定义。

DOWNLOADER_MIDDLEWARES_BASE变量的内容如下所示：

'scrapy.downloadermiddlewares.robotstxt.RobotsTxtMiddleware': 100,
'scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware': 300,
'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware': 350,
'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware': 400,
'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': 500,
'scrapy.downloadermiddlewares.retry.RetryMiddleware': 550,
'scrapy.downloadermiddlewares.ajaxcrawl.AjaxCrawlMiddleware': 560,
'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware': 580,
'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 590,
'scrapy.downloadermiddlewares.redirect.RedirectMiddleware': 600,
'scrapy.downloadermiddlewares.cookies.CookiesMiddleware': 700,
'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 750,
'scrapy.downloadermiddlewares.stats.DownloaderStats': 850,
'scrapy.downloadermiddlewares.httpcache.HttpCacheMiddleware': 900,

这是一个字典格式，字典的键名是Scrapy内置的Downloader Middleware的名称，键值代表了调用的优先级，数字小的Downloader Middleware会被优先调用。

如果向己定义Downloader Middleware要添加到项目里，DOWNLOADER_MIDDLEWARES_BASE变量不能直接修改。Scrapy提供了另外一个设置变量DOWNLOADER_MIDDLEWARES，我们直接修改这个变盘就可以添加向己定义的Downloader Middleware，以及禁用DOWNLOADER_MIDDLEWARES_BASE里面定义的Downloader Middleware

Scrapy内置的Downloader Middleware为Scrapy提供了基础的功能，但在项目实战中我们往往需要单独定义Downloader Middleware。不用担心，这个过程非常简单，我们只需要实现某几个方法即可。每个Downloader Middleware都定义了一个或多个方法的类，核心的方法有如下三个。

process_request(request, spider)
process_response(request, response, spider)
process_exception(request, exception, spider)

我们只需要实现至少一个方法，就可以定义一个Downloader Middleware。下面我们来看看这三个方法的详细用法：

Request被Scrapy引擎调度给Downloader之前，process_request()方法就会被调用，也就是在Request从队列里调度出来到Downloader下载执行之前，我们都可以用processrequest()方法对Request进行处理。方法的返回值必须为None、Response对象、Request对象之一，或者抛出IgnoreRequest异常

两个参数：

request
spider

返回None，Scrapy将继续处理该request，执行其他中间件中的相应方法，直到合适的下载器处理函数被调用
返回为Response对象时，更低优先级的Downloader Middleware的process_request()和process_exception()方法就不会被继续调用，每个Downloader Middleware的process_response()方法转而被依次调用。调用完毕之后，直接将Response对象发送给Spider来处理。
当返回为Request对象时，更低优先级的Downloader Middleware的process_request()方法会停止执行。这个Request会重新放到调度队列里，其实它就是一个全新的Request，等待被调度。如果被Scheduler调度了，那么所有的Downloader Middleware的process_request()方法会被重新按照顺序执行。（不再使用之前的request对象去下载数据，而是根据现在返回的request对象返回数据，接着执行其他下载器处理函数。）
如果IgnoreRequest异常抛出，则所有的Downloader Middleware的process_exception()方法会依次执行。如果没有一个方法处理这个异常，那么Request的errorback()方法就会回调。如果该异常还没有被处理，那么它便会被忽略。（如果这个方法中抛出了异常，则会调用process_exception方法。）

Downloader执行Request下载之后，会得到对应的Response。Scrapy引擎便会将Response发送给Spider进行解析。在发送之前，我们都可以用process_response()方法来对Response进行处理。方法的返回值必须为Request对象、Response对象之一，或者抛出IgnoreRequest异常。

process_response()方法的参数有如下三个：

request
response
spider

当Downloader或process_request()方法抛出异常时，例如抛出IgnoreRequest异常，process_exception()方法就会被调用。方法的返回值必须为None、Response对象、Request对象之一。

process_exception()方法的参数有如下三个。

request
exception
spdier

Original: https://blog.csdn.net/weixin_43903639/article/details/122816105
Author: LyaJpunov
Title: Scrapy-middlewares对象

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790796/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python、golang、java、nodejs的HTTP性能对比

文章目录前言一、测试环境二、测试方案1 二、测试方案2 前言这两年都在使用Python写后端服务，因业务并发量不大，完全可以满足业务需求，而且编码效率较高，也就没关心其ht…

Python 2023年8月12日
0083
python的面向对象

1、什么是对象？在python中，一个对象的特征也称为属性（attribute）。它所具有的行为，或者是函数也称为方法（method）结论：对象=属性+方法 2、什么是类？具…

Python 2023年6月12日
0070
Matter理论介绍-通用-1-06：桥接设备-其他功能

源码文档软件硬件技术交流技术支持入口文末】【所有相关IDE SDK 例程源码均可从群文件免费获取免安装解压即用持续更新中，欢迎关注！【活动报名】2023…

Python 2023年9月15日
0035
python解最强大脑：黑白迭代

文章目录黑白迭代规则解法分析 * 重要性质简化问题公式法 – 合并多个公式推导公式高斯消元法可视化代码实现 * 项目结构 solve.py gui.py…

Python 2023年9月20日
0053
介绍一下python有趣的库-tqdm

Tqdm 是 Python 进度条库，可以在 Python 长循环中添加一个进度提示信息用法：tqdm(iterator)方法1： import time from tqdm im…

Python 2023年6月9日
0056
数据分析处理库-Pandas基础-上篇

; 数据分析处理库- Pandas基础-上篇 1 pandas简介高性能,易使用的数据分析工具可以做什么? 处理多种类型的数据 SQL.Excel,等类似含有异构列的数据有序…

Python 2023年8月17日
0052
Python 之正则表达re.compile()与re.findall()详解

在使用爬虫提取网页中的部分信息时，采用到了 re.compile()与 re.findall()两种方法，目的：把网页中的”某某城市土地规划表”截取并打印…

Python 2023年8月1日
0048
【博学谷学习记录】超强总结，用心分享|人工智能Python基础实现“飞机大战”游戏

【博学谷学习记录】超强总结，用心分享|人工智能Python基础实现”飞机大战”游戏一，新的改变在第一阶段的学习中，我不仅掌握了一些Python的基础语法…

Python 2023年9月18日
0054
深入浅出 JavaScript 中的 this

笔者最近在看你不知道的JavaScript上卷，里面关于 this 的讲解个人觉得非常精彩。 JavaScript 中的 this 算是一个核心的概念，有一些同学会对其有点模糊和…

Python 2023年10月21日
0034
在Sharepoint2010中一种自定义调查列表的不允许再次答复提示的处理方法！

在Sharepoint中默认创建的调查列表系统只允许答复一次，再次答复将报错误信息，这对最终用户而言是非常不友好的体验，当然你也可以在调查设置中的常规设置中设置允许多次答复，这样就…

Python 2023年6月6日
0073
典型相关分析（Canonical Correlation Analysis，CCA）原理及Python、MATLAB实现

随着对CCA的深入研究，是时候对CCA进行一下总结了。本菜鸡主要研究方向为故障诊断，故会带着从应用角度进行理解。基本原理从字面意义上理解CCA，我们可以知道，简单说来就是对不…

Python 2023年8月2日
0056
LSTM分类模型

LSTM文本分类模型本文主要固定一个文本分类的流程。分为三个部分：数据处理。对分类文本数据集做简单的预处理。模型数据准备。处理上一步的结果，得到模型的输入样本。模型搭建和训…

Python 2023年10月9日
0052
Flask框架——蓝图

在上篇文章中，我们学习了Flask框架——模板复用（继承、包含、宏），这篇文章我们来学习Flask框架——蓝图。随着Flask项目越来越复杂，把所有视图函数放在一个应用文件中会很…

Python 2023年8月11日
0079
利用anaconda对python程序打包流程

修改下载源为国内源可以改善第三方包下载速度缓慢的问题。修改conda下载源的方法详见：https://mirrors.tuna.tsinghua.edu.cn/help/anaco…

Python 2023年9月18日
0061
Python测试框架pytest（08）fixture – conftest.py、yield、addfinalizer

目录 1、conftest.py作用范围 2、yield实现teardown 3、yield+with的结合 4、addfinalizer终结函数 1、conftest.py作用范…

Python 2023年9月11日
0045
flask部署阿里云服务器，公网ip访问不了（一些问题及解答）

flask部署阿里云服务器，公网ip访问不了（新手踩坑之路）好朋友，你是不是一个后端初学者？相信到目前为止，你已经拥有一定的后端基础，在发现单机本地的后端开发已经无法满足你，于是…

Python 2023年8月9日
00109

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy-middlewares对象

大家都在看