scrapy中间件详解

2023年10月1日下午10:05 • Python • 阅读 67

scrapy中间件：

*
–
+ scrapy中间件介绍
+ 下载器中间件
+
* 添加ip代理
* UA中间件
* cookies中间件
+ 爬虫中间件
+
* 核心方法

scrapy中间件介绍

=
scrapy中间件是scrapy框架的重要组成部分
分为两大种类：下载器中间件（ DownloaderMiddleware）和爬虫中间件（ SpiderMiddleware）
图中4、5为下载器中间件
图中6、7为爬虫中间件

下载器中间件是Scrapy请求/响应处理的钩子框架。这是一个轻，低层次的系统，全球范围内改变斯拉皮的请求和响应。

下载器中间件主要功能：
1、添加ip代理
2、添加cookie
3、添加UA
4、请求重试

Spider中间件是一个钩子框架，可以钩住Scrapy的Spider处理机制，在该机制中，您可以插入自定义功能来处理发送到的响应。蜘蛛用于处理和处理由spider生成的请求和项目。

爬虫中间件主要功能：
1、处理引擎传递给爬虫的响应
2、处理爬虫传递给引擎的请求
3、处理爬虫传递给引擎的数据项

其中，爬虫中间件在以下情况中会被调用：

1.当运行到 yield scrapy.Request()或者 yield item 的时候，爬虫中间件的
2.process_spider_output()方法被调用。当爬虫本身的代码出现了 Exception 的时候，爬虫中间件的
3.process_spider_exception()方法被调用。当爬虫里面的某一个回调函数 parse_xxx()被调用之前，爬虫中间件的
4. process_spider_input()方法被调用。当运行到 start_requests()的时候，爬虫中间件的
5. process_start_requests()方法被调用。

=
首先，先创建一个spider用于学习middleware
打开其中的middlewares.py
初始化样子：


from scrapy import signals

from itemadapter import is_item, ItemAdapter

class MiddlewareproSpiderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):

        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_spider_input(self, response, spider):

        return None

    def process_spider_output(self, response, result, spider):

        for i in result:
            yield i

    def process_spider_exception(self, response, exception, spider):

        pass

    def process_start_requests(self, start_requests, spider):

        for r in start_requests:
            yield r

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

class MiddlewareproDownloaderMiddleware:

    @classmethod
    def from_crawler(cls, crawler):

        s = cls()
        crawler.signals.connect(s.spider_opened, signal=signals.spider_opened)
        return s

    def process_request(self, request, spider):

        return None

    def process_response(self, request, response, spider):

        return response

    def process_exception(self, request, exception, spider):

        pass

    def spider_opened(self, spider):
        spider.logger.info('Spider opened: %s' % spider.name)

可以看到分为两类：

class MiddlewareproDownloaderMiddleware:

class MiddlewareproSpiderMiddleware:

以下依次介绍

下载器中间件

添加ip代理

测试ip地址可访问网站 http://httpbin.org/ip
方法一：
不用中间件。重写start_ requests方法，在发送请求时传入ip—proxy

yield scrapy.Request(self.start_urls[0], meta={"proxy": proxy})

方法二：
使用中间件。

第一种：静态ip中间件
test：

import scrapy

class MiddlewaretestSpider(scrapy.Spider):
    name = 'middlewareTest'

    start_urls = ['http://httpbin.org/ip']

    def parse(self, response):
        print('IP地址--> ', response.text)

在middlewares中重写编写一个类：

class TestProxyMiddleware(object):
    def process_request(self, request, spider):
        proxy = "http://113.57.26.117"
        request.meta["proxy"] = proxy

在settings中打开;

DOWNLOADER_MIDDLEWARES = {

    'middlewarePro.middlewares.TestProxyMiddleware':543,

}

结果：

IP地址-->  {
  "origin": "113.57.26.117"
}

第二种：动态ip
动态ip的创建和静态ip创建原理相似，只是每次给request的meta赋予不同的proxy参数，这就要依靠代理池俩实现。
代理池就是有很多ip组成的字典，每次随机抽取一个ip，如果这个代理池足够大，就可以降低重复的概率
test不变
middlewares：
先导入两个类：

import random
from scrapy.utils.project import get_project_settings

class TestProxyMiddleware(object):

    def __init__(self):

        self.settings = get_project_settings()

    def process_request(self, request, spider):

        proxy = random.choice(self.settings['PROXIES'])
        request.meta["proxy"] = proxy

settings中接入一个代理池：

PROXIES = [
    'http://114.217.243.25:8118',
    'http://125.37.175.233:8118',
    'http://1.85.116.218:8118'
]

UA中间件

UA中间件的设置和代理的设置基本相同
middlewares中新建一个类 UAMiddleware

class UAMiddleware(object):

    def process_request(self, request, spider):
        ua = random.choice(settings['USER_AGENT_LIST'])
        request.headers['User-Agent'] = ua

在settings中添加一个含UA数据的字典即可。

USER_AGENT_LIST = [
"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36",
  "Dalvik/1.6.0 (Linux; U; Android 4.2.1; 2013022 MIUI/JHACNBL30.0)",
  "Mozilla/5.0 (Linux; U; Android 4.4.2; zh-cn; HUAWEI MT7-TL00 Build/HuaweiMT7-TL00) AppleWebKit/533.1 (KHTML, like Gecko) Version/4.0 Mobile Safari/533.1",
  "AndroidDownloadManager",
  "Apache-HttpClient/UNAVAILABLE (java 1.4)",
  "Dalvik/1.6.0 (Linux; U; Android 4.3; SM-N7508V Build/JLS36C)",
  "Android50-AndroidPhone-8000-76-0-Statistics-wifi",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.4; MI 3 MIUI/V7.2.1.0.KXCCNDA)",
  "Dalvik/1.6.0 (Linux; U; Android 4.4.2; Lenovo A3800-d Build/LenovoA3800-d)",
  "Lite 1.0 ( http://litesuits.com )",
  "Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 5.1; Trident/4.0; .NET4.0C; .NET4.0E; .NET CLR 2.0.50727)",
  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/38.0.2125.122 Safari/537.36 SE 2.X MetaSr 1.0",
  "Mozilla/5.0 (Linux; U; Android 4.1.1; zh-cn; HTC T528t Build/JRO03H) AppleWebKit/534.30 (KHTML, like Gecko) Version/4.0 Mobile Safari/534.30; 360browser(securitypay,securityinstalled); 360(android,uppayplugin); 360 Aphone Browser (2.0.4)",
]

记得在settings中开启该通道;

DOWNLOADER_MIDDLEWARES = {

    'middlewarePro.middlewares.TestProxyMiddleware':543,
    'middlewarePro.middlewares.UAMiddleware' : 544,
}

cookies中间件

cookies值主要用于爬取一些需要登录的网站，保持登录状态。
设置cookies中间件首先要有若干cookies值，获取cookies可以用selenium登录要爬取的网址，然后下载cookies，多重复几遍就可得到多个cookies值

具体操作和上述类似

爬虫中间件

Spider middleware主要有三个作用：
1、在downloader生成request发送给spider之前，对request进行处理
2、在spider生成request发送给scheduler之前，对request进行处理
3、在spider生成request发送给item pipeline之前，对item进行处理

核心方法


process_ spider _input(response, spider)

process_spider_output(response, result, spider)

process_spider_exception(response, exception, spider)

process_start_requests(start_requests, spider)

上述只需要其中一个方法就可以定义一个spider middleware。

Original: https://blog.csdn.net/weixin_44457673/article/details/118858892
Author: 独角兽小马
Title: scrapy中间件详解

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789045/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

ROS从入门到精通0-2：ROS简介、安装与常见问题

目录 0 专栏介绍 1 ROS简介 * 1.1 什么是ROS？ 1.2 为什么使用ROS？ 2 ROS发展历程 3 ROS安装 * 3.1 基本安装 3.2 初始化rosdep 3…

Python 2023年10月9日
0078
Pygame Display显示模块详解

Pygame 使用pygame.display显示模块中的方法创建游戏的主窗口： screen = pygame.display.set_mode(size=(),flags=0)…

Python 2023年9月21日
0030
pandas 与 dict 互换

pandas的DataFrame与python的dict字典之间的相互转换一、dict生成DataFrame1、如果只有一个dict，即一行dataframe数据复制代码 dict…

Python 2023年8月7日
0050
Flask+Echarts搭建全国疫情可视化大屏

目录需求分析项目实施 1.数据采集 2.搭建flask应用 3.可视化展示第一板块第二板块第三板块第四板块 4.添加定时任务项目总结本项目是基于flask+echa…

Python 2023年8月2日
0050
Python中的shape[0]、shape[1]和shape[-1]分别是什么意思（附代码）

shape函数是Numpy中的函数，它的功能是读取矩阵的长度，比如shape[0]就是读取矩阵第一维度的长度。直接用.shape可以快速读取矩阵的形状，使用shape[0]读取矩…

Python 2023年7月31日
0058
特征融合的分类和方法

1、特征融合的定义特征融合方法是模式识别领域的一种重要的方法，计算机视觉领域的图像识别问题作为一种特殊的模式分类问题，仍然存在很多的挑战，特征融合方法能够综合利用多种图像特征，实…

Python 2023年8月3日
0044
Python简单实现人脸识别检测, 对照片进行评分

大家好，今天和大家说说如何用Python简单实现人脸识别检测, 对照片进行排名，看看自己有多漂亮。 [开发环境]: Python 3.8Pycharm 2021.2 [模块使用]:…

Python 2023年8月2日
0041
【实操日记】使用 PyQt5 设计下载远程服务器日志文件程序

最近通过 PyQt5 设计了一个下载服务器指定日期日志文件的程序，里面有些有意思的技术点，现在做一些分享。 PyQt5 是一套 Python 绑定 Digia Qt5 应用的框架，…

Python 2023年10月15日
0046
dataframe 条件取非_python-Pandas DataFrame获取索引匹配特定条件的…

尝试这个： compare[compare.index.get_level_values(0).month.isin([5, 6, 7])] 演示： In [45]: import…

Python 2023年8月8日
0047
【Python】numpy矩阵运算大全

文章目录前言 0 遇事不决，先查官网，查着查着就查熟了 1 矩阵运算及其必要性 2 矩阵的创建 * 2.1 普通矩阵 2.2 特殊矩阵 3 矩阵的索引 * 3.1 str, li…

Python 2023年8月30日
0058
Oracle收集统计信息的一些思考

一、问题 Oracle在收集统计信息时默认的采样比例是DBMS_STATS.AUTO_SAMPLE_SIZE，那么AUTO_SAMPLE_SIZE的值具体是多少？假设采样比例为1…

Python 2023年10月15日
0046
python pip install 总是出错的解决方法_pip安装总是失败怎么办？ 3个方法帮你解决…

前言本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,版权归原作者所有,如有问题请及时联系我们以作处理。以下文章来源于5号程序员，作者5号程序员想必刚接触P…

Python 2023年8月13日
0054
Django中HTML判断等于/不等于/包含/不包含某个字符

django中一个变量与某个值进行比较, 显示不同按钮 Django中{% ifequal A B %} 用来比较A和B两个值是否相等，{% ifnotequal A B %}` …

Python 2023年8月4日
00173
Pandas数据分析—实现数据的合并(concat和append)

; 11.Pandas实现数据的合并(concat和append) 文章目录 11.Pandas实现数据的合并(concat和append) 前言一、假造数据二、程序演示 * …

Python 2023年8月7日
0051
【luban】python之numpy常用函数整理

针对python版本下的gem模拟gibbs_mc_lj.py的代码结构分析以及其中用的python常用函数记录。代码结构分析：常用函数： python中数组（numpy.ar…

Python 2023年8月29日
0036
Pandas 实现excel类似vlookup 的匹配功能 (apply, merge, join)

Excel的vlookup功能在数据量太大的前提下就挺难用的，所以还是需要pandas搞定下面是用pandas实现匹配的方法如下图，假如我有一个表全是印尼文 A有另一张在goo…

Python 2023年8月18日
0039

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31