Python scrapy-redis分布式实例（一）

2023年10月4日上午9:59 • Python • 阅读 45

一、分布式爬虫 scrapy-redis

Scrapy-redis为了实现Scrapy分布式提供了一些以redis为基础的组件

https://github.com/rmax/scrapy-redis/

有能人改变了scrapy的队列调度，将起始的网址从start_urls里分离出来，改为从redis读取，多个客户端可以同时读取同一个redis，从而实现了分布式的爬虫（比如：打印机，每个用户都可以使用）

需要安装：pip install scrapy_redis 安装命令中间是下划线_, 下载好以后显示是横线-

scrapy-redis架构

Scheduler(调度器):

Scrapy的Scrapy queue 换成 redis 数据库, 多个 spider 从同一个 redis-server 获取要爬取request
Scheduler 对新的request进行入队列操作, 取出下个要爬取的request给爬虫, 使用Scrapy-redis的scheduler组件

Duplication Filter(指纹去重):

在scrapy-redis中去重是由Duplication Filter组件来实现的, 通过redis的set不重复的特性
scrapy-redis调度器从引擎接受request, 并指纹存⼊set检查是否重复, 不重复写⼊redis的request queue

Item Pipeline(管道)：

引擎将爬取到的Item给Item Pipeline, scrapy-redis组件的Item Pipeline将爬取到的Item 存⼊redis的items队列里

Base Spider(爬虫):

RedisSpider继承了Spider和RedisMixin这两个类, RedisMixin用来从redis读取url的类
我们写个Spider类继承RedisSpider, 调用setup_redis函数去连接redis数据库, 然后设置signals(信号)
当spider空闲时候的signal, 会调用spider_idle函数, 保证spider是一直活着的状态
当有item时的signal, 会调用item_scraped函数, 获取下一个request

二、scrapy-Redis分布式策略：

Slaver端从Master端拿任务（Request/url/ID）进行数据抓取，在抓取数据的同时也生成新任务，并将任务抛给Master。Master端只有一个Redis数据库，负责对Slaver提交的任务进行去重、加入待爬队列。
优点：scrapy-redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作scrapy-redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点：scrapy-redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间。当然我们可以重写方法实现调度url。

三、将之前某个网修改为基于RedisSpider类的scrapy-redis分布式爬虫项目，将数据存入redis数据库。

（1）item文件不需要修改

（2） spiders爬虫文件，使用RedisSpider类替换之前的Spider类，其余地方做些许改动即可，具体代码如下：

#(1)&#x5BFC;&#x5305;
from scrapy_redis.spiders import RedisSpider
#(2&#xFF09;&#x4FEE;&#x6539;RedisSpider
class SixSpider(RedisSpider):
    name = 'six'
    #(3) redis&#x7684;&#x952E;&#x503C;&#x5BF9;&#x540D;&#x79F0;
    redis_key = 'hsx'

（3）修改settings文件设置

#&#x8FC7;&#x6EE4;&#x64CD;&#x4F5C;&#xFF0C;&#x8D44;&#x6E90;&#x8DEF;&#x5F84;&#xFF1A;&#x7C7B;
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

#&#x8C03;&#x5EA6;&#x5668;&#x7684;&#x6307;&#x5B9A;&#xFF0C;&#x8D44;&#x6E90;&#x8DEF;&#x5F84;
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

#&#x8C03;&#x5EA6;&#x5668;&#x7684;&#x6301;&#x4E45;&#x5316;&#xFF0C;&#x65AD;&#x70B9;&#x7EED;&#x722C;
SCHEDULER_PERSIST = True

#redis&#x7BA1;&#x9053;&#x4EE3;&#x66FF;&#x4E86;&#x539F;&#x6765;&#x7684;&#x7BA1;&#x9053;
ITEM_PIPELINES = {
    # 'example.pipelines.ExamplePipeline': 300,  #&#x672C;&#x5730;&#x7BA1;&#x9053;
    'scrapy_redis.pipelines.RedisPipeline': 400,
}
#log&#x7B49;&#x7EA7;
LOG_LEVEL = 'DEBUG'

#&#x4E0B;&#x8F7D;&#x5EF6;&#x8FDF;
DOWNLOAD_DELAY = 3

(4) 启动爬虫程序（注意：在运行之前启动redis服务器）

&#xA0;scrapy crawl six

执行程序后终端窗口显示如下：

原因：因为没有起始url，需要去redis数据库中创建起始url

解决： 在Master端的redis-cli输入push指令，参考格式：

打开redis-cli客户端，输入以下命令

127.0.0.1:6379> lpush hsx https://www.sixstaredu.com/teacher

说明：
hsx: 是爬虫文件中redis_key = ‘hsx’ 中的值
https://www.sixstaredu.com/teacher: 就是起始网址start_url

通过观察：

redis在scrapy-redis中起到的作用：

1.可以代替调度器，保存request请求对象，分配给各个服务器 — “six:requests”

2.可以代替item，pipelines里面的item保存数据 — “six:items”

3.任务的去重，断点续爬(哪里暂停就从哪里开始) — “six:dupefilter”

（5）获取数据

所有Slaver端将开始爬取数据，数据将保存在Redis数据库中，并共享Redis数据库的请求队列、请求指纹集合和数据队列。

Original: https://blog.csdn.net/hlx20080808/article/details/117981670
Author: 凌冰_
Title: Python scrapy-redis分布式实例（一）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790941/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Django模型操作之增删改查大全

这几年一直在it行业里摸爬滚打，一路走来，不少总结了一些python行业里的高频面试，看到大部分初入行的新鲜血液，还在为各样的面试题答案或收录有各种困难问题于是乎，我自己开发了一…

Python 2023年8月5日
0071
Python离线安装三方库_在公司是内网，有私有Pypi镜像的情况下

以前笔记的升级/简洁版0. 将Win/本地项目的依赖包导出到requirement.txt文档 pip3 freeze > requirements.txt 0.1. 配置p…

Python 2023年6月9日
0081
Scrapy教程 – (3)如何翻頁爬取更多資料

Scrapy教程 – 3如何翻頁爬取更多資料前言 * 觀察頁面如何翻頁完整代碼瀑布流網站(infinite scroll)怎麼翻頁? 前言上个教程2完成了一个…

Python 2023年10月4日
0040
飞船代码。。。

要 Python 下载火箭形状的图片，我们需要使用Python 的内置模块urllib.request和re。首先，使用urllib.request模块中的urlretrieve(…

Python 2023年9月19日
0059
pytest.mark.parametrize结合allure动态传参数

传title方法1：@allure.title(‘{case_name}’eg:@allure.title(‘{case_name}&#8217…

Python 2023年9月11日
0052
第9节:BP反向传播网络及其numpy实现

### 回答1： numpy_是一个常用的Python库，广泛用于科学计算和数据分析。它包含了大量的数学函数和操作，特别适合用于 _实现_神经 _网络_的计算。要使用 _nump…

Python 2023年8月26日
0037
使用小程序实现AI动漫脸特效

文章目录 * – 一、文章前言 – 二、具体流程及准备 – 三、开发步骤 – 四、完整代码 – 五、拓展开发 &#821…

Python 2023年9月25日
0036
matplotlib图像绘制基础

matplotlib中有很多个作图元素，如下图：上图中涵盖了最基本的作图元素，其实还有更多的元素需要注意的，下面我们针对每个元素进行详细说明。在绘制图像时，会对图像有各种需求，…

Python 2023年9月1日
0056
AI识别照片是谁，人脸识别face_recognition开源项目安装使用 | 机器学习

前言最近碰到了照片识别的场景，正好使用了face_recognition项目，给大家分享分享。face_recognition项目能做的很多，人脸检测功能也是有的，是一个比较成熟…

Python 2023年10月26日
0042
python __slot__

python slot 原创 mb62b9178dc218f2022-06-27 11:04:08©著作权文章标签 py 文章分类 Python 后端开发 ©著作权归作者所有：来…

Python 2023年5月25日
0086
1.8 字典的运算

如何进行一些计算操作(如求最大值、排序等)在数据字典里吗？ [En] How to perform some calculation operations (such as fin…

Python 2023年5月24日
00113
Pytest框架 — 07、Pytest的Fixture（部分前后置）(二)

4、Fixture的相互调用示例： import pytest 第一层fixture @pytest.fixture() def fixture_1(): data = &quo…

Python 2023年5月23日
0087
JavaScript 2022 最新面试题【前端面试题】

1.对象属性绑定的事件，取消 <script> _btn.onclick = function() {} _btn.onclick = null </script…

Python 2023年9月16日
0035
离线安装python第三方库

有两种方式可以在环境中安装： 1. 使用 wheel 文件在有网络连接的机器上，使用 pip 下载所有需要的，并使用 wheel 工具将这些库打包成 wheel 格式的文件…

Python 2023年9月2日
0048
微服务架构 | 10.1 使用 Sleuth 追踪服务调用链

前言 1. Sleuth 基础知识 1.1 Sleuth 原理 2. 在服务中使用 Sleuth 追踪 2.1 引入 pom.xml 依赖文件 2.2 查看日志信息最后前言参…

Python 2023年6月3日
0093
Python编程向导：Kivy基础

目录一、安装Kivy 的运行环境二、创建一个 Kivy应用程序三、Kivy APP 的生命周期四、Kivy运行应用程序五、Kivy定制应用程序六、Kivy终端应用程序 …

Python 2023年9月21日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python scrapy-redis分布式实例（一）

一、分布式爬虫 scrapy-redis

scrapy-redis架构

二、scrapy-Redis分布式策略：

通过观察：

大家都在看