分布式爬虫Scrapy-Redis之四种组件及原理

2023年10月4日下午3:13 • Python • 阅读 64

分布式爬虫

分布式爬虫是由一组通过网络进行通信、为了完成共同的爬虫任务而协调工作的计算机节点组成的系统。分布式爬虫是将多台电脑组合起来，共同完成一个爬虫任务，大大提高爬取效率。

原来scrapy的Scheduler维护的是本机的 任务队列（存放Request对象及其回调函数等信息）+本机的 去重队列（存放访问过的url地址）：

所以实现分布式爬取的关键就是，找一台专门的主机上运行一个共享的队列比如Redis，
然后重写Scrapy的Scheduler，让新的Scheduler到共享队列存取Request，并且去除重复的Request请求，所以总结下来，实现分布式的关键就是三点：
共享队列
重写Scheduler，让其无论是去重还是任务都去访问共享队列
为Scheduler定制去重规则（利用redis的集合类型）

Scrapy-Redis

Scrapy 是一个通用的爬虫框架，但是不支持分布式， Scrapy-redis是为了更方便地实现 Scrapy 分布式爬取，而提供了一些以redis为基础的组件。

安装

pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy-redis

scrapy-redis提供四种组件

scrapy-redis是一个基于redis数据库的scrapy组件，它提供了四种组件，通过它，可以快速实现简单分布式爬虫程序。

Scheduler(调度器)

Scrapy 改造了 Python 本来的 collection.deque(双向队列) 形成了自己的 Scrapy queue ，但是 Scrapy 多个 spider 不能共享待爬取队列Scrapy queue ，即 Scrapy 本身不支持爬虫分布式 ,。

scrapy-redis 的解决是把这个 Scrapy queue 换成 redis 数据库（也是指 redis队列) ，从同一个redis-server存放要爬取的request，便能让 多个spider去同一个数据库里读取 ，这样实现共享爬取队列。

Scheduler负责对新的request进行入列操作（加入Scrapy queue），取出下一个要爬取的request（从Scrapy queue中取出）等操作。

Redis支持多种数据结构，这些数据结构可以很方便的实现这样的需求:

列表有lpush()，lpop()，rpush()， rpop()，这些方法可以实现先进先出，或者先进后出式的爬取队列。
集合元素是无序且不重复的，可以很方便的实现随机排序且不重复的爬取队列。
Scrapy的Request带有优先级控制，Redis中的集合也是带有分数表示的，可以用这个功能实现带有优先级调度的爬取队列。

Duplication Filter (去重)

Scrapy 自带去重模块，该模块使用的是 Python 中的集合类型。也就是说Scrapy中用集合实现这个request去重功能。

Scrapy中把已经发送的request指纹放入到一个集合中，把下一个request的指纹拿到集合中比对，如果该指纹存在于集合中，说明这个request发送过了，如果没有则继续操作。

该集合会记录每个请求的指纹，指纹也就是 Request的散列值 。

指纹的计算采用的是hashlib 的 sha1() 方法。计算的字段包含了，请求的Method ， URL ， Body ， Header 这几个内容，这些字符串里面只要里面有一点不同，那么计算出来的指纹就是不一样的。
也就是说，计算的结果是加密后的字符串，这就是请求指纹。通过加密后的字符串，使得每个请求都是唯一的，也就是指纹是惟一的。
并且指纹是一个字符串，在判断字符串的时候，要比判断整个请求对象容易。所以采用了 指纹作为判断去重的依据 。

ltem Pipeline(管道)

引擎将(Spider返回的)爬取到的ltem给 ltem Pipeline ， scrapy-redis 的 ltem Pipeline将爬取到的Item存入redis的 items queue。

修改过 ltem Pipeline 可以很方便的根据key从 items queue 提取 item，从而实现 items processes集群

Base Spider(爬虫类)

不再使用scrapy原有的Spider类， 重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。

Scrapy-Redis 工作原理

首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；
Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

Original: https://blog.csdn.net/qq_45812313/article/details/127997883
Author: 华凰洛
Title: 分布式爬虫Scrapy-Redis之四种组件及原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791106/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python数据分析与可视化案例解析

题目需求描述已知两个Excel表格：学生基本信息表、期末考试成绩表分别用于存放学生的基本信息（包括姓名、性别、班级）和学生的期末成绩（包括姓名、语文、数学、英语…

Python 2023年8月28日
0047
【Matplotlib】条形图与直方图

文章目录垂直条形图 * 代码运行结果代码分析水平条形图 * 代码运行结果并列条形图 * 代码运行结果代码分析条纹填充并列条形图 * 代码运行结果代码分析叠加…

Python 2023年9月1日
0045
34_Pandas对CSV文件内容的导出和添加（to_csv）

如果要将panda.DataFrame或pandas.Series数据导出为csv文件或将其添加到现有的csv文件中，请使用to_csv（）方法。由于分隔符可以更改，因此也可以将其…

Python 2023年8月18日
0046
驱动开发：内核枚举Minifilter微过滤驱动

Minifilter 是一种文件过滤驱动，该驱动简称为微过滤驱动，相对于传统的 sfilter文件过滤驱动来说，微过滤驱动编写时更简单，其不需要考虑底层RIP如何派发且无需要考虑兼…

Python 2023年10月18日
0043
Python GUI tkinter 开发连连看小游戏

完整的源码：Python GUI tkinter 开发连连看小游戏源码游戏的三点要素地图地图背景是10*10的方格每个方格内随机填充一个蔬菜或水果音效背景音乐鼠…

Python 2023年9月18日
0056
Flask项目基本流程

基本框架 from flask import Flask app = Flask(__name__) @app.route(‘/’) def hello_world(): retu…

Python 2023年8月13日
0060
（2022.5）Pyhthon Matplotlib实现在图中绘制多子图（一纸多图）

目录前言一、从指定路径下读取二、手动添加路径总结前言写Paper或者做CW时，可能会遇见需要将多张图片绘制在一起的情景，使用PS或拼图工具可能会比较麻烦。这次给大家介…

Python 2023年9月1日
0041
python实现简单的商品数据管理系统

一个商品名称价格库存总销量存放商品的数据类型 str set list tuple dict 综合考虑，选择字典 dict_data = {} {名称: {price: …

Python 2023年10月30日
0033
pygame 图像的基本使用

pygame 图像的基本使用笛卡尔坐标系实际效果代码代码说明 * 碰撞原理方法说明载入图片 surface对象和Rect对象 Rect对象属性移动我们会用到各种图片…

Python 2023年9月20日
0036
做跨境电商，如何从同类产品中脱颖而出？

随便打开一个跨境电商平台，你会发现自己售卖的产品有那么多类似的选择，如何确保你的产品能被客户选择？怎样在一系列产品中脱颖而出？不少卖家提到了，搞差异化竞争，这是跨境电商卖家常挂在…

Python 2023年10月7日
0036
python读取html文件中的表格数据_使用解析html表pd.read_html文件其中单元格本身包含完整表…

不能使用^{}读取嵌套表，但可以滚动自己的html阅读器，并对表单元格使用read_html：import pandas as pd import bs4 with open(&#…

Python 2023年8月9日
0079
Python使用Matplotlib绘图2维+3维（2D图像和3D图像），去理解考研积分（或者二重积分）

高数有时候遇到难以想象的图形，可能需要画图帮助学习绘制折线图（plt.plot）设置图片大小和分辨率（plt.figure）保存图片到本地（plt.savefig）设置xy轴刻度…

Python 2023年8月31日
0066
pandas筛选与替换

需求：在表格中，按照相应的条件，把数据筛选出来，然后把筛选出来的数据进行赋值后，再放回原来的表格。一、excel表格筛选要实现这样的功能，在excel2016之前是不容易的，…

Python 2023年8月7日
0043
NB-IoT无线通信模块与Lora无线通信协议技术分析与前景展望

物联网的快速发展对无线通信技术提出了更高的要求，专为低带宽、低功耗、远距离、大量连接的物联网应用而设计的LPWAN(low-power Wide-Area Network，低功耗广…

Python 2023年10月28日
0037
python数据清洗

接下来是第三章的学习：数据清洗在数据分析和建模的过程中，相当多的时间要用在数据准备上：加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。有时，存储在文件和数据库中…

Python 2023年8月8日
0066
数据分析三剑客

数据分析三剑客 * – numpy – pandas – matplotlib 该篇文章主要对这三大模块做个简单介绍。 numpy numpy …

Python 2023年8月26日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31