python捕获所有异常状态_如何在scrapy中捕获并处理各种异常

2023年10月3日下午11:56 • Python • 阅读 57

前言

使用scrapy进行大型爬取任务的时候(爬取耗时以天为单位)，无论主机网速多好，爬完之后总会发现scrapy日志中”item_scraped_count”不等于预先的种子数量，总有一部分种子爬取失败，失败的类型可能有如下图两种(下图为scrapy爬取结束完成时的日志)：

scrapy中常见的异常包括但不限于：download error(蓝色区域), http code 403/500(橙色区域)。

不管是哪种异常，我们都可以参考scrapy自带的retry中间件写法来编写自己的中间件。

正文

使用IDE，现在scrapy项目中任意一个文件敲上以下代码：

from scrapy.downloadermiddlewares.retry import RetryMiddleware

按住ctrl键，鼠标左键点击RetryMiddleware进入该中间件所在的项目文件的位置，也可以通过查看文件的形式找到该中间件的位置，路径是：site-packages/scrapy/downloadermiddlewares/retry.RetryMiddleware

该中间件的源代码如下：

class RetryMiddleware(object):

IOError is raised by the HttpCompression middleware when trying to

decompress an empty response

EXCEPTIONS_TO_RETRY = (defer.TimeoutError, TimeoutError, DNSLookupError,

ConnectionRefusedError, ConnectionDone, ConnectError,

ConnectionLost, TCPTimedOutError, ResponseFailed,

IOError, TunnelError)

def init(self, settings):

if not settings.getbool(‘RETRY_ENABLED’):

raise NotConfigured

self.max_retry_times = settings.getint(‘RETRY_TIMES’)

self.retry_http_codes = set(int(x) for x in settings.getlist(‘RETRY_HTTP_CODES’))

self.priority_adjust = settings.getint(‘RETRY_PRIORITY_ADJUST’)

@classmethod

def from_crawler(cls, crawler):

return cls(crawler.settings)

def process_response(self, request, response, spider):

if request.meta.get(‘dont_retry’, False):

return response

if response.status in self.retry_http_codes:

reason = response_status_message(response.status)

return self._retry(request, reason, spider) or response

return response

def process_exception(self, request, exception, spider):

if isinstance(exception, self.EXCEPTIONS_TO_RETRY) \

and not request.meta.get(‘dont_retry’, False):

return self._retry(request, exception, spider)

def _retry(self, request, reason, spider):

retries = request.meta.get(‘retry_times’, 0) + 1

retry_times = self.max_retry_times

if ‘max_retry_times’ in request.meta:

retry_times = request.meta[‘max_retry_times’]

stats = spider.crawler.stats

if retries

Original: https://blog.csdn.net/weixin_39782752/article/details/113513307
Author: weixin_39782752
Title: python捕获所有异常状态_如何在scrapy中捕获并处理各种异常

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790621/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【无标题】工商银行科技菁英岗笔经面经

工商银行2022夏季招聘笔经面经投递信息笔试面试本文还发布于牛客网投递信息应聘岗位：科技菁英-珠海-后端开发工程师投递渠道：官网（中国工商银行人才招聘 (icb…

Python 2023年10月8日
0058
Python中的魔法方法

python中的魔法方法是一些可以让你对类添加”魔法”的特殊方法,它们经常是两个下划线包围来命名的 Python的魔法方法，也称为dunder(双下划线)方…

Python 2023年8月15日
0047
多播网络（Multicast）应用权限

Spring4GWT GWT Spring 使得在 Spring 框架下构造 GWT 应用_变得很简单，提供一个易于理解的依赖注入和RPC机制。 Java扫雷游戏 JVMine J…

Python 2023年10月10日
0053
创建一个flask应用

flask是一个微框架，只保留了核心功能，但是有丰富的第三方插件主要组成部分是werkzeug和jinja2，Werkzeug是一个WSGI工具包，他可以作为一个Web框架的底层…

Python 2023年6月3日
0063
import MySQLdb as Database ModuleNotFoundError: No module named ‘MySQLdb‘

import MySQLdb as Database ModuleNotFoundError: No module named ‘MySQLdb’ impo…

Python 2023年6月10日
0069
好玩的代码雨，在线分享给大家~-

Original: https://www.cnblogs.com/Qqun261823976/p/16435238.htmlAuthor: python倩Title: 好玩的代码…

Python 2023年11月2日
0046
python+selenium+pytest（下）自动化api+web项目实战

简单运用python+selenium+pytest进行项目实战 *一、 *先前的测试报告用pytest.html比较简单和朴素，接下来换一个好看的报告文件Allure 1、在Py…

Python 2023年9月12日
0045
[python]为指定目录下的文件名批量加前缀

使用python为指定目录下的文件批量加前缀前言功能描述：批量重命名指定目录下的文件，文件名加前缀，默认格式为”目录名_原文件名”。示例代码 impo…

Python 2023年6月12日
0060
Pandas pipe: 一种更优雅的数据预处理方法！

欢迎关注，专注Python、数据分析、数据挖掘、好玩工具！我们知道现实中的数据通常是杂乱无章的，需要大量的预处理才能使用。Pandas 是应用最广泛的数据分析和处理库之一，它提…

Python 2023年8月7日
0068
Pandas-04（缺失数据、分组、合并连接、级联）

1.缺失数据 1.1 isnull()和notnull()检测缺失数据 1.2 fillna()填充缺失值 1.3 删除NaN的行 1.4 replace()替换丢失的值或者通用值…

Python 2023年8月7日
0047
瞧瞧别人家的API接口，那叫一个优雅

在实际工作中，我们需要经常跟第三方平台打交道，可能会对接第三方平台API接口，或者提供API接口给第三方平台调用。那么问题来了，如果设计一个优雅的API接口，能够满足：安全性、可…

Python 2023年10月12日
0034
【机器学习】李宏毅——AE自编码器(Auto-encoder)

1、What 在自编码器中，有两个神经网络，分别为Encoder和Decoder，其任务分别是： Encoder：将读入的原始数据（图像、文字等）转换为一个向量 Decoder：将…

Python 2023年10月24日
0056
python小问题：依赖包/conda-forge/conda无法安装包/librosa/

必须先安装某个版本的某包，这就是依赖是conda的一个channel，如果不使用这个channel，则使用默认的conda default channel 有的时候会出现如：co…

Python 2023年9月8日
0073
小白之Python基础（一）

一、数字类型: 1、整形十进制：默认为十进制；（如：99，100…….）十六进制: 0x,0X开头的表示16进制数二进制：0b,0B开头的表示2进制数八进…

Python 2023年11月2日
0038
Python ❀ 类

1、创建与使用 1.1 创建一个简单的类 1.2 根据类创建实例 1.2.1 访问属性 1.2.2 调用方法 1.2.3 创建多个实例…

Python 2023年5月25日
0095
JavaScript的异步编程之Promise

Promise 一种更优的异步编程统一方法，如果直接使用传统的回调函数去完成复杂操作就会形成回调深渊 // 回调深渊 $.get(‘/url1′() => { $.get(…

Python 2023年10月17日
0047

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python捕获所有异常状态_如何在scrapy中捕获并处理各种异常

大家都在看