Scrapy框架五

2023年10月7日上午2:20 • Python • 阅读 24

Scrapy 下载中间件

下载中间件是scrapy提供用于用于在爬虫过程中可修改Request和Response，用于扩展scrapy的功能
使用方法：
• 编写一个Download Middlewares和我们编写一个pipeline一样，定义一个类，然后再settings中开启
Download Middlewares默认方法：
处理请求,处理响应,对应两个方法

process_request(self,request,spider):
    &#x5F53;&#x6BCF;&#x4E2A;request&#x901A;&#x8FC7;&#x4E0B;&#x8F7D;&#x4E2D;&#x95F4;&#x4EF6;&#x65F6;&#xFF0C;&#x8BE5;&#x65B9;&#x6CD5;&#x88AB;&#x8C03;&#x7528;

process_response(self,request,response,spider):
    &#x5F53;&#x4E0B;&#x8F7D;&#x5668;&#x5B8C;&#x6210;http&#x8BF7;&#x6C42;&#xFF0C;&#x4F20;&#x9012;&#x54CD;&#x5E94;&#x7ED9;&#x5F15;&#x64CE;&#x7684;&#x65F6;&#x5019;&#x8C03;&#x7528;

process_request(request,spider)
当每个Request对象经过下载中间件时会被调用，优先级越高的中间件，越先调用；该方法应该返回以下对象：None/Response对象/Request对象/抛出IgnoreRequest异常
返回None：scrapy会继续执行其他中间件相应的方法；
返回Response对象：scrapy不会再调用其他中间件的process_request方法,也不会去发起下载,而是直接返回该Response对象
返回Request对象：scrapy不会再调用其他中间件的process_request()方法,而是将其放置调度器待调度下载
如果这个方法抛出异常,则会调用process_exception方法
process_response(request,response,spider)
当每个Response经过下载中间件会被调用，优先级越高的中间件，越晚被调用，与process_request()相反；该方法返回以下对象：Response对象/Request对象/抛出IgnoreRequest异常。
返回Response对象：scrapy会继续调用其他中间件的process_response方法；
返回Request对象：停止中间器调用，将其放置到调度器待调度下载；
抛出IgnoreRequest异常：Request.errback会被调用来处理函数，如果没有处理，它将会被忽略且不会写进日志。

设置随机请求头

爬虫在频繁访问一个页面的时候,这个请求如果一直保持一致。那么很容易被服务器发现,从而禁止掉这个请求头的访问。因此我们要在访问这个页面之前随机的更改请求头,这样才可以避免爬虫被抓。随机更改请求头,可以在下载中间件实现。在请求发送给服务器之前,随机的选择一个请求头。这样就可以避免总使用一个请求头
测试请求头网址: http://httpbin.org/user-agent


class RandomUserAgent(object):
    def process_request(self,request,spider):
        useragent = random.choice(spider.settings['USER_AGENTS'])
        request.headers['User-Agent'] = useragent

class CheckUserAgent(object):
    def process_response(self,request

Original: https://blog.csdn.net/qq_36137368/article/details/113848372
Author: SSSCAESAR
Title: Scrapy框架五

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/793029/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【前沿技术RPA】一文了解UiPath 使用Git管理项目

🐋作者简介：博主是一位.Net开发者，同时也是RPA和低代码平台的践行者。🐬个人主页：会敲键盘的肘子🐰系列专栏：UiPath🦀专栏简介： UiPath在传统的RPA（Robotic…

Python 2023年9月16日
0031
红楼梦词云用Python还能这样画

在用Python绘制红楼梦词云图文章中讲到我们使用Python把红楼梦中的核心词汇给绘画出来了，但是，红楼梦这么唯美的书，给我们乌漆麻黑的搞了一张词云，宝宝们肯定接受不了。那…

Python 2023年9月22日
0040
Python极客项目编程中文PDF完整版入门到精通

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

Python 2023年5月23日
0064
自动化测试-pytest

“””author:佳期如梦function:pytestdate：2021-04-06“””第一套方案py…

Python 2023年9月14日
0048
Sentinel控制台1.8.3修改源码，修改配置后推送到Nacos

1. 接着上一篇 2. 思路 3. 下载Sentinel源码 4. 看Gateway里面读取的配置信息 5. 修改Sentinel控制台源码 6. 熔断规则测试 7. 限流规则测试…

Python 2023年10月23日
0050
CSP考试复习：第三单元 3.5 Mayan 游戏

题目描述 Mayan puzzle 是最近流行起来的一个游戏。游戏界面是一个77 行 \times5×5 列的棋盘，上面堆放着一些方块，方块不能悬空堆放，即方块必须放在最下面一行，…

Python 2023年9月21日
0037
CANN 6.0来了，硬核技术抢先看

摘要：在华为全联接大会2022期间，华为正式官宣昇腾AI异构计算架构CANN 6.0版本将在年底正式发布。在华为全联接大会2022期间，华为正式官宣昇腾AI异构计算架构CANN …

Python 2023年10月28日
0041
pip 换源与python虚拟环境的创建

pip换源临时换源： pip install pypi源下载源码，在国外，比较慢—》镜像(pypi在国内备份)—>豆瓣，清华，阿里 pip install -i 源…

Python 2023年6月10日
0065
什么是pytest，自动化测试必学

自动化测试框架都有哪些？按框架的定义来分，自动化测试框架可以分为：基础功能测试框架、管理执行框架。按不同的测试类型来分，可以分为：功能自动化测试框架、性能自动化测试框架。 …

Python 2023年9月12日
0053
python3教程：json、pickle和sqlite3持久化存储字典对象

在各种python的项目中，我们时常要持久化的在系统中存储各式各样的python的数据结构，常用的比如字典等。尤其是在云服务类型中的python项目中，要持久化或者临时的在缓存中储…

Python 2023年5月24日
0056
Python掉JAVA返回值_Python事件处理程序方法不在条件中返回值

我对python完全不熟悉(自从我编写了很多内容以来已经有一段时间了) . 我试图在一个小”hello world”类型的游戏中调用一个充当事件处理程序的方…

Python 2023年9月25日
0040
python df 合并_python中pandas.Dataframe合并的方法有哪些？

小编介绍过pandas的连接函数concat()函数使用方法，concat()函数是专门服务于pandas.Dataframe合并使用的，那pandas.Dataframe拼接方法…

Python 2023年8月6日
0041
Hopfield神经网络（HNN）详解

Hopfield神经网络是一种比较特殊的网络，它不像一般的神经网络那样有输入层和输出层，并且通过训练来改变神经网络中的参数，最终实现预测、识别等功能。Hopfield网络只有一群神…

Python 2023年8月1日
00200
copp | AAA

2、在转发层有一个CEF表，该表是实时的与控制层的路由表同步的，其实严格来说路由器其实并不是按照路由表来转发的，而是按照转发层的CEF表来转发数据的。 3、在控制层与转发层有一道门…

Python 2023年6月15日
0057
python取dataframe某行某列_python：pandas之DataFrame取行列（df.loc(),df.iloc()）以及索引…

import pandas as pd import numpy as np df = pd.DataFrame(np.arange(24).reshape(6,4),index=…

Python 2023年8月6日
0053
scrapy 安装 mysql_scrapy入门教程1：scrapy环境配置以及安装

基本环境说明本文截图及运行环境均在MAC OS X 10.9.5上实现，但基本步骤与win 7环境上相同(其实我是先在win7折腾了一把，然后为了写这篇教程，又在OS X 上面重…

Python 2023年10月6日
0052

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy框架五

目录

Scrapy 下载中间件

设置随机请求头

大家都在看