Python scrapy框架教学（五）：分布式爬虫

2023年10月4日下午5:04 • Python • 阅读 42

数据去重

当数据重复时，我们就可以不保存

from scrapy.exceptions import DropItem
class DuplicatesPipeline(object):
  def __init__(self):
    self.ids_seen = set()
  def process_item(self, item, spider):
    if item['id'] in self.ids_seen:
      raise DropItem("Duplicate item found: %s" % item)
    else:
      self.ids_seen.add(item['id'])
    return item

Python爬虫、数据分析、网站开发等案例教程视频免费在线观看

https://space.bilibili.com/523606542

分布式采集

Scrapy_redis ： Redis-based components for Scrapy.

Github地址：https://github.com/rmax/scrapy-redis Scrapy_redis 在scrapy 的基础上实现了更多，更强大的功能，具体体现在：reqeust去重，爬虫持久化，和轻松实现分
布式

那么，scrapy_redis是如何帮助我们抓取数据的呢？

单机爬虫

默认情况下Scrapy是不支持分布式的，需要使用基于Redis 的 Scrapy-Redis 组件才能实现分布式。

正常的 Scrapy 单机爬虫：

Scrapy并不会共享调度队列，也就是说Scrapy是不支持分布式的。为了支持分布式，我们需要让Scrapy支持共享调度队列，也就是改造成共享调度和去重的功能。

分布式爬虫

分布式：分而治之

将一个爬虫代码，分别部署在多台电脑上，共同完成整个爬虫任务。

使用Redis服务器来集中处理所有的请求，主要负责请求的去重和调度。通过这种方式，所有电脑端的爬虫共享了一个爬取队列，并且每个电脑端每次得到的请求都是其他爬虫未曾访问的。从而提高了爬虫效率。

得到一个请求之后，检查一下这个Request是否在Redis去重，如果在就证明其它的spider采集过啦！如果不在就添加进调度队列，等待别人获取。

Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件。

安装如下： pip install scrapy-redis Scrapy-redis

提供了下面四种组件（components）：(四种组件意味着这四个模块都要做相应的修改)

Scheduler（调度器）
Duplication Filter（去重）
Item Pipeline（管道）
Base Spider（爬虫类）

Scheduler（调度器）
Scrapy改造了Python本来的collection.deque(双向队列)形成了自己的Scrapy queue，但是Scrapy多个spider不能共享待爬取队列Scrapy queue，即Scrapy本身不支持爬虫分布式，scrapy-redis 的解决是把这个Scrapy queue换成redis数据库（也是指redis队列），便能让多个spider去同一个数据库里读取，这样实现共享爬取队列。

Redis支持多种数据结构，这些数据结构可以很方便的实现这样的需求：

列表有lpush()，lpop()，rpush()，rpop()，这些方法可以实现先进先出，或者先进后出式的爬取队列。
集合元素是无序且不重复的，可以很方便的实现随机排序且不重复的爬取队列。
Scrapy的Request带有优先级控制，Redis中的集合也是带有分数表示的，可以用这个功能实现带有优先级调度的爬取队列。

Scrapy把待爬队列按照优先级建立了一个字典结构，比如：

{
  &#x4F18;&#x5148;&#x7EA7;0 : &#x961F;&#x5217;0
  &#x4F18;&#x5148;&#x7EA7;1 : &#x961F;&#x5217;1
  &#x4F18;&#x5148;&#x7EA7;2 : &#x961F;&#x5217;2
}

然后根据request中的优先级，来决定该入哪个队列，出列时则按优先级较小的优先出列。由于Scrapy原来的Scheduler只能处理Scrapy自身的队列，不能处理Redis中的队列，所以原来的Scheduler已经无法使用，应该使用Scrapy-Redis的Scheduler组件。

Duplication Filter（去重）
Scrapy自带去重模块，该模块使用的是Python中的集合类型。该集合会记录每个请求的指纹，指纹也就是Request的散列值。指纹的计算采用的是hashlib的sha1()方法。计算的字段包含了，请求的Method，URL，Body，Header这几个内容，这些字符串里面只要里面有一点不同，那么计算出来的指纹就是不一样的。也就是说，计算的结果是加密后的字符串，这就是请求指纹。通过加密后的字符串，使得每个请求都是唯一的，也就是指纹是惟一的。并且指纹是一个字符串，在判断字符串的时候，要比判断整个请求对象容易。所以采用了指纹作为判断去重的依据。

Scrapy-Redis要想实现分布式爬虫的去重功能，也是需要更新指纹集合的，但是不能每个爬虫维护自己的单独的指纹集合。利用Redis集合的数据结构类型，可以轻松实现分布式爬虫的指纹判重。也就是说：每台主机得到Request的指纹去和Redis中的集合进行对比，如果指纹存在，说明是重复的，也就不会再去发送请求，如果不曾存在于Redis中的指纹集合，就会发送请求，并且将该指纹加入Redis的集合中。这样就实现了分布式爬虫的指纹集合的共享。

Item Pipeline
引擎将(Spider返回的)爬取到的Item给Item Pipeline，scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item，从⽽实现 items processes集群。

Base Spider
不再使用scrapy原有的Spider类，重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。当我们生成一个Spider继承RedisSpider时，调用setup_redis函数，这个函数会去连接redis数据库，然后会设置signals(信号)：

当spider空闲时候的signal，会调用spider_idle函数，这个函数调用schedule_next_request函数，保证spider是一直活着的状态，并且抛出DontCloseSpider异常。

当抓到一个item时的signal，会调用item_scraped函数，这个函数会调用schedule_next_request函数，获取下一个request。

Original: https://blog.csdn.net/m0_48405781/article/details/114982668
Author: 松鼠爱吃饼干
Title: Python scrapy框架教学（五）：分布式爬虫

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791168/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Python从入门到精通】（二十五）Python多进程的使用

您好，我是码农飞哥，感谢您阅读本文，欢迎一键三连哦。本篇重点介绍Python多进程的使用，读者朋友们可以将多进程和多线程两者做一个对比学习。干货满满，建议收藏，需要用到时常看看。 …

Python 2023年6月3日
0079
flask—》Marshmallow介绍及基础使用

Marshmallow，中文译作：棉花糖。是一个轻量级的数据格式转换的模块，也叫序列化和反序列化模块，常用于将复杂的orm模型对象与python原生数据类型之间相互转换。一般用…

Python 2023年8月10日
0064
pandas数据分析之分组聚合

pandas数据分析之分组聚合 * – 一、创建分组对象进行分组 – + 1、分组键为列名 + 2、分组键为字典或Series + 3、分组键为函数 &#8…

Python 2023年8月16日
0075
#yyds干货盘点#python pass和match

pass 语句不执行任何操作。语法上需要一个语句，但程序不实际执行任何动作时，可以使用该语句。例如：下面的代码创建一个最小类…

Python 2023年5月24日
0093
从零开始打造云端AI管理调度平台（四）如何设计主页_1

最近闲来无事，想着把自己工作正在做的一个项目做一个简单的分享与实战教程，该项目不困难但是由于涉及要素过多所以比较复杂。所以这里分享出来也是为了帮助新手小白能在实战当中快速了解pyt…

Python 2023年8月5日
0050
Java SE 19 新增特性

原文地址： HashMap 新的构造方法 Java SE 19，构造哈希表的时候，由于有扩容因子 0.75 的设置，所以如果要开辟一个 120 空间的哈希表，需要如下定义 Map …

Python 2023年10月21日
0033
我的Go gRPC之旅、01 初识gRPC，感受gRPC的强大魅力

微服务架构微服务是一种开发软件的架构和组织方法，其中软件由通过明确定义的API 进行通信的小型独立服务组成。这些服务由各个小型独立团队负责。微服务架构使应用程序更易于扩展和…

Python 2023年10月21日
0047
python–谷歌恐龙快跑小项目

项目名称：python恐龙块跑编程语言：python 用到知识：pygame模块，面向对象思想实现功能：背景的移动，恐龙的奔跑与跳跃（跳跃时伴有表情动画的变化），奔跑时有障…

Python 2023年8月3日
0038
Python编程之子进程管理(subprocess)详解

引言在写程序时，我们无法避免需要运行外部程序，相较于功能比较简单的os.system()，更加倾向于使用subprocess模块来执行外部程序。模块介绍 subprocess….

Python 2023年10月19日
0060
Python 计算思维训练——绘图进阶

第1关：柱状图 – 商品房销售价格统计图任务描述本关任务：请编写代码绘制办公楼商品房平均销售价格柱状图。相关知识为了完成本关任务，你需要掌握：读取外部数据；绘制…

Python 2023年9月2日
0042
Python实现json串比对并输出差异结果

主要是利用递归，逐层级、逐次、逐字段比较；可以用于幂等类接口的返回体校验。 class JsonCompare: def __init__(self, second_data, f…

Python 2023年6月3日
0065
开源的.Net 工作流引擎Elsa初试——创建工作流服务器和图形化工作流配置管理应用

🚀 优质资源分享 🚀 学习路线指引（点击解锁）知识定位人群定位🧡 Python实战微信订餐小程序 🧡 进阶级本课程是python flask+微信小程序的完美结合，从项目搭建到腾讯…

Python 2023年8月9日
00232
python s append_pandas中如何使用合并append函数？

介绍了这么多关于pandas拼接的方法，那你知道如果想要拼接拼接一个或者多个，还可以追加serise到原来的dataframe里面如何操作吗？其实还是很简单的，使用append函数…

Python 2023年8月8日
0061
Python logging模块实现同时向控制台和文件打印日志

Python logging模块实现同时向控制台和文件打印日志原创 CorwinPC2022-07-18 17:27:18博主文章分类：Python ©著作权文章标签 pyth…

Python 2023年5月25日
0083
Python数据分析–Pandas入门–DataFrame的增删改查操作

DataFrame的增删改操作 DataFrame的增加操作为DataFrame增加一列相同的内容 df[‘新列名’]=’数据’ …

Python 2023年8月6日
0062
小白使用Python操作json实练一

🏮 1 学习前言 🎈1.1我通过本次学习后获得在Python中，JSON定义在Python中，json模块解析json JSON和XML互转 🎈1.2类型转换对照表 pyth…

Python 2023年5月24日
0064

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python scrapy框架教学（五）： 分布式爬虫

数据去重

分布式采集

单机爬虫

分布式爬虫

大家都在看

Python scrapy框架教学（五）：分布式爬虫