逆向爬虫17 Scrapy中间件

2023年10月1日下午4:40 • Python • 阅读 51

逆向爬虫17 Scrapy中间件

在学习Scrapy之前，我们已经学了很多伪装防反爬的爬虫技术。

目标： 如何在Scrapy框架中也使用这些技术呢？这是本节要讨论的问题。本节要讨论的防反爬技术有

处理登录Cookies
处理UA
处理代理IP
结合Selenium进行浏览器环境伪装
利用Selenium获取Cookies

一、Scrapy处理登录Cookies问题

本节依然利用17k.com小说网来说明登录Cookies问题。

原理说明：

回忆一下之前的Cookies是如何添加的。

两种方式：

在浏览器中手动登录，从浏览器开发者工具中将cookies复制出来，放进HTTP请求头中。由于requests不会记住与服务器通信过程中的参数，每次通信时都是建立新的连接，因此每次都需要加上请求头。
使用requests.session()会话对象发送post请求模拟登录，无需复制Cookies，会话会记住与服务器通信过程中的参数，无需每次通信时都加上请求头，更方便。

在Scrapy中，同样也可以用这两种方式来解决登录Cookies问题。

再回顾一下Scrapy发起HTTP的流程：

在 爬虫 中指定start_urls，封装成request请求对象交给 调度器， 引擎 从 调度器 中取出requests对象交给 下载器， 下载器 去发起HTTP请求，并接收服务器返回的响应，封装成response响应对象交给 引擎， 引擎 再转交给 爬虫，完成了一次HTTP请求。

Cookies本身属于请求头内部的参数，需要添加到request对象中，而request对象是在 爬虫 中生成的，因此这部分的功能需要在 爬虫 中来添加。 再回顾一下之前使用Scrapy的案例 ，每次我们都只需要指定start_urls，Scrapy会自动帮我们完成requests对象封装。当然Scrapy是不会知道我们要添加什么Cookies的，因此我们需要知道Scrapy是如何帮我们封装request对象的，这就需要一点看Scrapy源码的能力和面向对象的知识了。

已知的是，request对象是由 爬虫 模块完成的，而 爬虫 模块是继承了scrapy.Spider的一个对象，我们在子对象中指定了start_urls，却没有指定HTTP请求头，那么指定请求头的工作，多半是在父对象scrapy.Spider中完成了，因此去看一下scrapy.Spider的源码

; scrapy.Spider类

Request类

因此，通过阅读Scrapy源码，我们知道了 爬虫 默认继承的scrapy.Spider对象的start_requests函数是不会指定请求头参数的，如果我们需要自己指定请求头参数，就必须重写父类scrapy.Spider中的start_requests函数，这是面向对象的知识，应该是属于继承多态的特性。当父类的功能不满足子类的需求时，子类可以重写父类中的功能，然后利用面向对象中多态的特性，最后根据调用过程中传递的对象类型，来判断是调用父类的方法还是子类中重写的方法。

因此，我们就在 爬虫 模块中，重写一下start_requests函数。 这是方式1，在浏览器中登录成功后，复制Cookiess信息。

; 重写start_requests方法1（访问时带上Cookies）

下面再看一下方式2，模拟浏览器登录。

重写start_requests方法2（模拟浏览器登录）

; 有感而发

这部分内容又让我想起了之前考研时听过的一句话： 不要强求不可知，要从已知推未知。 回顾整个过程，虽然Scrapy本身是比较未知且陌生的东西，但是里面所用到的知识点，其实就是一些Scrapy工作流程，网络基础和面向对象中的内容。理论上即使没有老师带着走，我们依然应该能够通过过去学到的东西，自己一点一点地把整个过程推理出来。

login.py源码

import scrapy

class LoginSpider(scrapy.Spider):
    name = 'login'
    allowed_domains = ['17k.com']
    start_urls = ['https://user.17k.com/ck/author/shelf?page=1&appKey=2406394919']

    def parse_login(self, resp):
        yield scrapy.Request(url=LoginSpider.start_urls[0], callback=self.parse)

    def parse(self, resp):
        print(resp.json())

"""
        需要重新定义一下，scrapy原来对于start_urls的处理
        只需要重写start_requests()方法即可
"""
    def start_requests(self):

        url = 'https://passport.17k.com/ck/user/login'
        username = 'xxxxxxxxxx'
        password = 'xxxxxxxxxx'

        yield scrapy.FormRequest(
            url=url,
            formdata={
                'loginName': username,
                'password': password
            },
            callback=self.parse_login
        )

二、Scrapy的中间件

在说明如何处理后面几种防反爬技术前，需要先引入一下Scrapy的中间件。因为这些防反爬功能，都是写在Scrapy的下载器中间件中。

中间件的作用：负责处理 引擎 和 爬虫 以及 引擎 和 下载器 之间的请求和响应，主要是可以对request和response做预处理，为后面的操作做好充足的准备。在Scrapy中有两种中间件，分别是 下载器中间件 和 爬虫中间件 。

1. DownloaderMiddleware下载器中间件

下载器中间件位于 引擎 和 下载器 之间， 引擎 在获取到request对象后，会交给 下载器 去下载，在这之间我们可以设置 下载器中间件 ，它的执行流程：

引擎 拿到request ==> 中间件1 (process_request) ==> 中间件2 (process_request) … ==> 下载器拿到request

引擎 拿到response

Original: https://blog.csdn.net/weixin_40743639/article/details/122779457
Author: 一个小黑酱
Title: 逆向爬虫17 Scrapy中间件

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788882/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python3：我低调的只用一行代码，就导入Python所有库！

一行代码导入python所有库 1、引言 2、Pyforest * 2.1 Pyforest 介绍 2.2 Pyforest 安装与使用 – 2.2.1 安装 2.2….

Python 2023年9月3日
0036
add_argument()方法基本参数使用

selenium做web自动化时我们想要通过get打开一个页面之前就设置好一些基本参数，需要通过add_argument()方法来设置，下面以一个简单的不展示窗口为例。 pyth…

Python 2023年6月11日
0073
SQL抽象语法树及改写场景应用

1 背景我们平时会写各种各样或简单或复杂的sql语句，提交后就会得到我们想要的结果集。比如sql语句，”select * from t_user where user…

Python 2023年10月19日
0042
66.(后端)用户角色权限关系——创建多对一的关系，添加新的表结构利用migrate映射数据库

1.概述——经典的用户权限分类配问题 ; 1.1用户与角色与权限之间含义一个用户相当于使用者，大家是平等，不含有任何权限。权限的分配靠的是角色来承接，把权限付给角色，再传递回给用…

Python 2023年8月11日
0049
基于JAVA+SpringMVC+Mybatis+Vue+MYSQL的大健康老年公寓管理系统

项目介绍本系统采用java语言开发，后端采用ssm框架，前端采用vue技术，数据库采用mysql进行数据存储。管理员后台页面：功能：主页、个人中心、护理人员管理、收费标准管理、…

Python 2023年9月26日
0030
8. python str( )函数

1. 导言俗话说，鸡不同鸭讲，不是一家人不进一家门。字符串类型和整数类型就不是”一家人。因此我们之前说过字符串类型和整数类型、浮点数类型不能进行拼接。如果硬把它们凑在…

Python 2023年8月2日
0050
Python学习笔记第三十六天(NumPy 高级索引)

NumPy 比一般的 Python 序列提供更多的索引方式。除了之前看到的用整数和切片的索引外，数组可以由整数数组索引、布尔索引及花式索引。整数数组索引以下实例获取数组中 (…

Python 2023年8月28日
0027
orm查询方式与优化

今日内容概要 1 > 聚合查询 2 > 分组查询 3 > F与Q查询 * 3.1 > F查询 3.2 > Q查询 4 > ORM查询优化 * 4…

Python 2023年8月6日
0053
Python设计模式系列

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0064
scrapy解析与数据库

Scrapy 功能学习 1 scrapy 数据提取 Scrapy还提供了自己的数据提取方法，即 Selector(选择器)。 Selector是基于 lxml 来构建的，支持 XP…

Python 2023年10月3日
0063
Python绘制时序图，ACF和PACF图

在时序分析众多模型中，最为基础也是最为重要的有AR§模型，MA(q)模型，以及两者的结合ARMA(p,q)模型，同时考虑ARMA模型的平稳性，若有一个或多个根落于单位圆上，则此时的…

Python 2023年10月27日
0027
最全Python绘制条形图（柱状图）

条形图（bar chart）也称为柱状图，是一种以长方形的长度为变量的统计图表，长方形的长度与它所对应的数值呈一定比例。 ; 一、导入绘图数据首先导入绘图所需的数据。 impor…

Python 2023年9月6日
0045
python加密Django框架代码（通过修改Cpython解释器）

文章目录前言一、实现效果二、代码修改 * 1.加密工具代码 2.Cpython代码修改 – 一.添加自己文件后缀的import loader. 二.修改Cpyth…

Python 2023年8月6日
0055
我的Vue之旅 09 数据数据库表的存储与获取实现 Mysql + Golang

第四期 · 将部分数据存储至Mysql，使用axios通过golang搭建的http服务器获取数据。新建数据库 DROP DATABASE VUE; create databas…

Python 2023年10月16日
0074
Python可视化（matplotlib）图像自定义图例（Legend）

Python可视化（matplotlib）图像自定义图例（Legend）目录 Python可视化（matplotlib）图像自定义图例（Legend）简单图例 Original…

Python 2023年9月3日
0054
python小游戏之《躲避太空垃圾》

欢迎加入我们卧虎藏龙的python讨论qq群：729683466 你正驾驶飞船在宇宙间旅行优哉游哉，好不惬意突然，出现了无数的太空垃圾一瞬间弹片横飞各个方向都有弹片袭来怎…

Python 2023年9月23日
0028

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

逆向爬虫17 Scrapy中间件

逆向爬虫17 Scrapy中间件

一、Scrapy处理登录Cookies问题

原理说明：

; scrapy.Spider类

Request类

; 重写start_requests方法1（访问时带上Cookies）

重写start_requests方法2（模拟浏览器登录）

; 有感而发

login.py源码

二、Scrapy的中间件

1. DownloaderMiddleware下载器中间件

大家都在看