基于scrapy-redis的分布式爬虫的配置

2023年10月3日上午5:35 • Python • 阅读 31

Scrapy是一个框架，他本身是不支持分布式的。如果我们想要做分布式的爬虫，就需要借助一个组件叫做Scrapy-Redis，这个组件正是利用了Redis可以分布式的功能，集成到Scrapy框架中，使得爬虫可以进行分布式。

利用Redis数据库实现分布式爬取，基本思想是将Scrapy爬虫的请求都放到Redis Queue中，所有的爬虫也都从指定的Redis Queue中获取请求，Scrapy-Redis组件中默认使用SpiderPriorityQueue来确定获取的先后次序，待爬取评论页面的参数队列的共享是爬虫可以部署在其他服务器上完成同一个爬取任务的一个关键点。

Master端管理Redis数据库和分发下载任务，Slave部署Scrapy爬虫提取网页和解析提取数据，最后将解析的数据存储在同一个MySQL数据库中。
在进行分布式爬虫之前，我们需要在master端搭建一个redis数据库，在slave端安装scrapy和分布式调度组件scrapy_redis。

对于master端，它的任务是获取某个景点的每一页内容的request存放在redis中，对访问参数进行去重、分配，对于slave端，最核心的模块是从master端的redis中获得待爬取页面的request，从而获取页面的response,解析提取字段。具体为爬虫从redis中取到request，开始运行爬虫访问链接，将下载器返回的Response,爬虫根据spider定义的爬取规则识别是否有匹配规则的内容字段，若有将字段存储，返回到模型中，等待数据存储操作。重复上述操作，直到待爬取页面请求队列为空，爬虫则等待新的请求。

Scrapy详细流程：

流程：
1.创建一个新的scrapy项目:scrapy startproject myspider
2.制作爬虫：爬数据，创建及编辑spider文件，取数据，解析网页结构。
3明确目标：item定义结构化数据字段，用来保存爬取到的数据。
4.存储数据：直接导出结构化文件，编写pipeline持久化数据库存储。

; scrapy_redis 与 scrapy 的区别

1.增加了Redis 数据库;
2.队列：
– scrapy 本身不支持爬虫 request 队列共享，即一个队列只能服务于一个爬虫，不支持分布式爬取；
– scrapy-redis 则把 request 队列存放于 Redis 数据库，多个爬虫 spider 可以到同一个 Redis 数据库里读取；
3.去重：
– scrapy 使用 set 集合实现 request 去重，通过将 request 与 set 中的已有 request 进行比对，如果已存在则丢弃；
– scrapy-redis 使用 Dupelication Filter 组件实现去重，scrapy-redis 调度器从引擎接受 request 并判断是否重复，并将不重复的 reuquest 写入 Redis 中的队列，之后调度器从队列中根据优先级 pop 出一个 reuqest 发送给爬虫引擎 spider 进行处理

分布式爬虫的优势：

解决目标地址对IP访问频率的限制的问题；
利用更高的带宽，提高下载速度；

分布式爬虫开始前的配置：

1.修改 spider.py将爬虫的父类已经改成RedisSpider

2.修改pipeline:
修改mysql数据库连接，以保障所有数据都能保存在master的mysql数据库中。
master 上 mysql 的 host 为 127.0.0.1
slave 上 mysql 的 host 为 master 的 ip
3.修改 settings.py
替换 SHCEDULER，使用scrapy_redis进行任务分发与调度
SCHEDULER = “scrapy_redis.scheduler.Scheduler”
4.使用 scrapy_redis 去重队列：
DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

5.使用 ‘优先级队列’进行爬虫调度，即各个主机获取请求的先后次序：
SCHEDULER_QUEUE_CLASS = ‘scrapy_redis.queue.SpiderPriorityQueue’

6.设置redis地址和端口：
REDIS_HOST = ‘127.0.0.1’ # 修改为Redis的实际IP地址
REDIS_PORT = 6379 # 修改为Redis的实际端口
如果不设置 Redis 的地址和端口，系统会默认 Redis 运行在本机。

分布式爬虫的大致流程：

Spiders将请求传递给引擎(中间的)，引擎拿到请求之后，将它交给调度器（上方的），scrapy-redis调度器从引擎接受 request 并判断该请求是否重复，并将不重复的 requests 写入 Redis 中的队列，之后各个主机按照顺序获取请求从队列中获取request；（红色为与scrapy不同的地方）再将这些请求传给引擎，引擎拿到这些请求后，会将这些请求交给下载器（右方的），下载器接收到请求后，会依次从internet上下载数据，得到response后，将response传递给引擎，引擎拿到请求结果后，会将请求结果给spiders,spiders对response进行解析，将解析得到的有用的数据items传递给引擎，然后引擎将这个数据类传给item pipelines,并进行后续处理，将其存储到同一个mysql数据库。

Original: https://blog.csdn.net/m0_52585291/article/details/125788455
Author: stray。。
Title: 基于scrapy-redis的分布式爬虫的配置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790022/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python删除Android应用及文件夹，炫起来

Original: https://www.cnblogs.com/123456feng/p/16194564.htmlAuthor: 蚂蚁ailingTitle: python删…

Python 2023年5月24日
00104
Python 实现Tracert追踪TTL值

Tracert 命令跟踪路由原理是IP路由每经过一个路由节点TTL值会减一，假设TTL值=0时数据包还没有到达目标主机，那么该路由则会回复给目标主机一个数据包不可达，由此我们就可以…

Python 2023年10月20日
0039
Matplotlib添加水印

from __future__ import print_function import numpy as np import matplotlib.cbook as cbook …

Python 2023年9月4日
0040
Scikit Learn CountVectorizer 入门实例

Scikit Learn CountVectorizer 入门实例原创 TechOnly2022-07-19 11:52:38博主文章分类：机器学习 ©著作权文章标签 pyth…

Python 2023年5月25日
0066
python的数据清理_Python数据清理,清洗

一.数据清洗与准备 1.缺失值 NaN(np.nan): 对数值型数据，浮点值NaN(not a number) NA(not available) None 均为缺失值，通过da…

Python 2023年8月19日
0050
Obsidan之数学公式的输入

前言： 最近在学习专升&a…

Python 2023年8月3日
0060
python基础知识之代码规范，千万不要小瞧它，要认真学哦~!

Original: https://www.cnblogs.com/jnjnj/p/16230768.htmlAuthor: python茜Title: python基础知识之代…

Python 2023年11月2日
0088
【实战】python+pytest+allure+jenkins实现接口自动化

从0开始的接口自动化日常接触到的接口自动化从实际目标可以划分为两大类：为模拟测试数据而开展的接口自动化这种接口自动化，大多是单次执行，目的很明确是为了功能测试创造测试数据，节…

Python 2023年9月10日
0068
scrapy模拟登陆

1.1 requests模块实现模拟登陆 1.2 selenium模拟登陆找到对应的input标签，输入账号和密码后定位到登录的元素位置点击登陆 1.3 scrapy有三种方法模…

Python 2023年10月5日
0038
Windows 10 – Django 框架学习总结 2

目录 1. 序言 2. 项目目录的架构 * 2.1 apps 目录 2.2. static 目录 2.3 templates (模板) 目录 2.4 学习 templates (模…

Python 2023年8月5日
0053
利用Python制作旋转花灯，祝大家元宵节快乐

1、原材料1.1 花灯纸如下所示，您还可以添加您喜欢的模式、文本等。 [En] As shown below, you can also add your favorite pat…

Python 2023年5月24日
0060
使用C#写一个Windows服务

创建服务程序可能你的VS里面没有【Windows服务】这个模板，那么你就需要通过”打开Visual Studio安装程序”，通过VisualStudio …

Python 2023年10月7日
0044
DataFrame(11)：数据转换——map()函数的使用

1、map()函数 1）map()函数作用将序列中的每一个元素，输入函数，最后将映射后的每个值返回合并，得到一个迭代器。 2）map()函数原理图原理解释：上图有一个列表，元素…

Python 2023年8月7日
0069
Django中views.py和html之间实现字典中键值的传递

之前在写Django时，会遇到以下两种情况：1.我在views.py中拿到了一个字典，现在要将字典中的key和value传输到html中进行展示，2.我在html多个输入框中取到的…

Python 2023年5月24日
0087
用python写一个自动生成春联的软件，打包exe，打包好的放在最后了

唠叨一下年前Python写对联挺火的，但是代码又不是人人都用，那就直接写个界面打包一下呗~ 主要实现只要运行后输入上联下联、横批，然后自动生成春联保存在代码文件夹，如果要打印出来…

Python 2023年11月9日
0055
关于“No loop matching the specified signature and casting was found for ufunc lstsq_n”问题的解决

下面这段代码是使用MatPlotLib绘制数据随时间变化的趋势。 import datetime as dt import numpy as np import pandas as…

Python 2023年6月9日
0084

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31