scrapy分布式爬虫原理（scrapy_redis）

2023年10月4日下午2:33 • Python • 阅读 38

在学习完scrapy基本知识后，大多数爬虫应用了scrapy框架的 异步加多线程后，爬取会有显著提升。但还是局限于一台主机运行，爬取的效率始终有限，因此学习 分布式爬虫就是 将多台主机组合起来，共同完成一个爬取任务，可以进一步提升效率。

分布式实现原理：

首先先回顾一个scrapy的架构：

scrapy会将生成的request放在队列中，这个队列是有deque实现的本地爬取队列queue。放入队列后，调度器scheduler才会调度里面的request，将request交给downloader执行。

简单的调度架构如下图：

而 分布式爬虫的简单架构如图：

从图中可以看出调度器scheduler可以扩展多个，因此download也可以扩展多个，而爬取队列queue始终为一个。这就是共享爬取队列。这就可以做到 一个scheduler从队列中调度某个request时，其他的scheduler不会重复调度这个request，就可以做到多个scheduler同时爬取，这就是分布式爬虫的基本雌性。

理解了这个大概原理就可以进行下一步scrapy_redis和分布式的结合

scrapy_redis是scrapy框架的一个组件，因为scrapy并不具备分布式的实现，因此scrapy_redis重写了一些scrapy框架里的类，让他能够支持分布式爬虫的创建。

scrapy_redis和scrapy示意图：

scrapy_redis的核心就是redis数据库，因为scrapy_redis改写了scrapy中的queue队列， 用redis数据库代替了queue，让本不能共享的queue变成了可以共享的数据库redis
因此，scrapy_redis将每一个request存入redis数据库中，这样就可以多个spider同时访问一个redis，进行分布式爬取。

Original: https://blog.csdn.net/weixin_44457673/article/details/118970528
Author: 独角兽小马
Title: scrapy分布式爬虫原理（scrapy_redis）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791084/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python串口助手及实时波形显示(serial库+matplotlib库)

线程模块、serial模块、tkinter(没有用)、matplotlib画图串口：com1.inWaiting()判断有无接收到数据 k == ‘\n’…

Python 2023年8月31日
0040
【Python+C#】手把手搭建基于Hugging Face模型的离线翻译系统，并通过C#代码进行访问

前言：目前翻译都是在线的，要在C#开发的程序上做一个可以实时翻译的功能，好像不是那么好做。而且大多数处于局域网内，所以访问在线的api也显得比较尴尬。于是，就有了以下这篇文章，自己…

Python 2023年10月20日
0028
vivo霍金实验平台设计与实践-平台产品系列02

vivo 互联网平台产品研发团队 – Bao Dawei 本篇介绍了vivo霍金实验平台的系统架构以及业务发展过程中遇到的问题以及对应的解决方案。《平台产品》系列文章…

Python 2023年10月14日
0037
Python数据分析中对DataFrame的数据分组处理groupby

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】 ● 标题与摘要 Python数据分析中对DataFrame的数据…

Python 2023年8月19日
00101
pygame教你从0到1一步步实现点到点的智能追踪系统（其一）

pygame库越来越有趣了。一直在思考如何构建一个目标追踪和定位的功能，今天终于落笔开始写成博客。下面是我的一些思考：归根到最简单的功能，就是首先有一个初始的点，然后有一个目标…

Python 2023年9月25日
0060
【ffmpeg】YUV实践

【ffmpeg】YUV实践前言生成YUV * 使用摄像头采集到YUV数据从现有的视频文件中提取YUV数据播放YUV 播放Y分量提取各分量参考资料个人简介 📦个人主页：…

Python 2023年9月16日
0030
python 绘制动态折线图

python中可以用matplotlib 绘制折线图 1、原始数据，数据位不同发电方式的月度历史发电量。date wind wind-sum solar solar-sum nu…

Python 2023年9月1日
0068
Python类中的self是什么意思？

在学习Python会发现，类的方法（构造方法和实例方法）中都会有一个固定参数self 。为了说清楚 self 是个什么东西，首先需要搞清实例与类之间的关系。人类是一个学术概念…

Python 2023年8月2日
0073
【Python学习笔记—保姆版】第四章—关于Pandas、数据准备、数据处理、数据分析、数据可视化

第四章欢迎访问我搞事情的【知乎账号】：Coffee以及我的【B站漫威剪辑账号】：VideosMan若我的笔记对你有帮助，请用小小的手指，点一个大大的赞哦。编译器使用的是sypd…

Python 2023年8月18日
0056
❀安装第三方库❀win10，anaconda虚拟环境下安装cv2，numpy

安装cv2指的是opencv-python Step1:激活想要安装的所在虚拟环境然后安装 pip install opencv-python Step2:激活想要安装的所在虚拟…

Python 2023年8月24日
0091
深入浅出 Yolo 系列之 Yolov7 基础网络结构详解

从 2015 年的 YOLOV1， 2016 年 YOLOV2， 2018 年的 YOLOV3，到 2020 年的 YOLOV4、 YOLOV5，以及最近出现的 YOLOV6 和…

Python 2023年10月25日
0023
智慧供应链的学习笔记（库存管理、配补货、仓间调拨、控制塔等）

文章目录 1 供应链集成系统案例 * 1.1 京东物流一体化供应链 – 1.1.1 算法中台 1.1.2 易卜工程化平台 1.2 美团：到店供应链及商品平台建设实践 2…

Python 2023年9月28日
0051
YOLOV5-断点训练/继续训练

YOLOV5-断点训练/继续训练情况：1.训练过程中中断了，继续训练2.训练完了，但是未收敛，在这个基础上，还想用这个权重、学习率等参数继续训练多一些批次 1. 训练过程中中断了…

Python 2023年8月2日
0074
flask + uwsgi不要nginx，应该怎么写配置文件？

如果你在Google或者百度或者某些技术社区上面搜索 uwsgi+Flask，你会发现大量的文章，是教你如何使用 uwsgi+flask+Nginx搭建网站。如下图所示： ; 怪现…

Python 2023年8月11日
0055
第一章 TCP/IP 协议

作者简介：一名云计算网络运维人员、每天分享网络与运维的技术与干货。座右铭：低头赶路，敬事如仪 *个人主页：网络豆的主页目录前言一.什么是TCP/IP 编辑二…

Python 2023年11月4日
0051
浅浅试了一下Python机器人自动写作，能加入作协吗？我看行

Python 2023年5月24日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy分布式爬虫原理（scrapy_redis）

大家都在看