Scrapy-redis 实现分布式

2023年10月6日上午6:11 • Python • 阅读 30

概念：搭建一个分布式的机群，让其对一组资源进行分布式爬取。
作用：提升爬虫的效率

1.安装scrapy-redis的组件
2.scrapy-redis组件的作用：可以给原生的scrapy框架提供可以被共享的调度器和管道。

1.创建一个工程
2.创建一个基于CrawlSpider的爬虫文件。

3.修改当前的爬虫文件：

       1.   &#x5BFC;&#x5305;&#xFF1A;
           from scrapy_redis.spiders import RedisCrawlSpider 
       2 &#x5C06;start_urls&#x548C;allowed_domains&#x8FDB;&#x884C;&#x6CE8;&#x91CA;
       3  &#x6DFB;&#x52A0;&#x4E00;&#x4E2A;&#x65B0;&#x7684;&#x5C5E;&#x6027;&#x503C;&#xFF1A;redis_key = 'xxxx' &#x53EF;&#x4EE5;&#x88AB;&#x5171;&#x4EAB;&#x7684;&#x8C03;&#x5EA6;&#x5668;&#x540D;&#x79F0;
       4  &#x7F16;&#x5199;&#x6570;&#x636E;&#x89E3;&#x6790;&#x76F8;&#x5173;&#x7684;&#x5DE5;&#x4F5C;
       5  &#x5C06;&#x5F53;&#x524D;&#x722C;&#x866B;&#x7EE7;&#x627F;&#x7684;&#x7236;&#x7C7B;&#x6539;&#x5199;&#x6210; RedisCrawlSpider

4.修改settings配置文件

ITEM_PIPELINES = {
    'scrapy_redis.pipelines.RedisPipeline':400
}

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

SCHEDULER_PERSIST = True

REDIS_HOST = 'redis的服务器ip地址'
REDIS_POST = '6379'

5.redis相关操作配置：

6 执行工程：scrapy runspider xxx.py
7. 像调度器队列放入一个起始的url：调度器的队列在redis客户端中： lpush xxx(redis_key) www.xxx.com
8. 爬取到的数据储存在redis的proName：items这个数据结构当中
9.查看数据：在redis的客户端输入：1. keys* 2.lrange xxx:items 0 -1 (显示爬到的数据) 3. llen xxx:items(看爬了多少数据)

Original: https://blog.csdn.net/RayMand168/article/details/116175002
Author: 你很棒滴
Title: Scrapy-redis 实现分布式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792374/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于支持向量机的图像分类系统（MATLAB GUI界面版）

摘要：本文详细介绍基于支持向量机的图像分类系统，给出 M A T L A B_的算法介绍及界面设计过程。在界面中可点击选择图片或带图片的文件夹，系统自动对所涉及图片进行识别分类，可…

Python 2023年10月26日
0055
青龙2.11.3版本对接傻妞+go-cqhttp+短信登录(Maiark)(兔子）+本地服务器直连GitHub

目录青龙面板常用指令装面板前的准备安装青龙面板傻妞机器人安装教程：芝士配置和命令对接nodebot机器人 2、安装pm2 4.安装go -cqhttp 服务器下载…

Python 2023年11月5日
00105
软件使用笔记

点击file->preference: 选择 configure conda ： always_yes: true channels: – def…

Python 2023年9月25日
0025
数据可视化Day2：艺术画笔见乾坤

仅作为学习笔记学习资料：https://datawhalechina.github.io/fantastic-matplotlib/ 1. matplotlib的三层api 用Ar…

Python 2023年9月4日
0055
利用资金曲线选择策略加减仓时机

更多精彩内容，欢迎关注公众号：数量技术宅，也可添加技术宅个人微信号：sljsz01，与我交流。每个策略都有其相适应的行情，如果某一段行情符合策略的逻辑，那么策略就会在这段行情…

Python 2023年6月3日
0053
使用python将图片改为灰度图或黑白图

使用python将图片改为灰度图或黑白图有三种方式，分别是是使用cv2库和PIL库来实现，详细过程如下所示。 1. 使用cv2库将图片改为灰度图在使用cv2进行读取原彩色图片时，…

Python 2023年8月2日
00181
京东云开发者｜经典同态加密算法Paillier解读 – 原理、实现和应用

摘要随着云计算和人工智能的兴起，如何安全有效地利用数据，对持有大量数字资产的企业来说至关重要。同态加密，是解决云计算和分布式机器学习中数据安全问题的关键技术，也是隐私计算中，横跨…

Python 2023年10月16日
0044
pytest 常用命令、插件合集；Python + pytest + requests + yaml

一、pytest常用插件合集 pip install pytest 单元测试框架 pip install pytest-html 生成html测试报告 pip install py…

Python 2023年9月11日
0040
❀安装第三方库❀win10，anaconda虚拟环境下安装cv2，numpy

安装cv2指的是opencv-python Step1:激活想要安装的所在虚拟环境然后安装 pip install opencv-python Step2:激活想要安装的所在虚拟…

Python 2023年8月24日
0087
Numpy 学习总结

一、数组 1、特殊数组 2、创建数组 3、修改数组元素类型 4、数组基本属性查看 5、改变数组维度 6、索引与切片 7、元素替换 8、数组变形 9、数组拼接 10、数组切割 11、…

Python 2023年8月28日
0046
【Python爬虫系列教程 28-100】小姐姐带你入门爬虫框架Scrapy、使用Scrapy框架爬取糗事百科段子

### 回答1： Python 爬虫_是指 _使用 Python_编程语言编写的，用于自动化地从互联网上获 _取_数据的一种程序。而CentOS是一种基于Linux操作系统的开源操…

Python 2023年10月6日
0033
PwnTheBox(web篇)简单题

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月10日
0055
Python安装教程

Python、PyCharm安装详细图文教程，以及在PyCharm中安装Python的包近来换了个电脑，Python等一众环境都要重装，加上身边有些朋友会写代码，但配环境总是遇到…

Python 2023年8月3日
0067
Pandas常见方法（1）-pandas索引重建、按轴删除条目、选择与过滤、自动对齐与函数处理、统计运算和排序

说明：本blog基于python3， pandas 1.3.5版本本文主要介绍pandas所有常见基础用法，包括索引重建、按轴删除条目、选择与过滤、简单运算自动对齐与函数处理、…

Python 2023年8月22日
0071
JWT token 相关配置 (全局配置身份认证重写Authenticate方法)

文章目录 * – 一. jwt 全局配置 – 1.settings配置 – 二. 配置jwt过期时间自定义返回的json数据 – …

Python 2023年8月3日
0034
快用Python（Pygame）代码燃放起你专属的烟花吧，咝……咻——嘭~

朋友们，你有多久没有看烟花了呢？文章目录朋友们，你有多久没有看烟花了呢？一、项目基本信息 (Python-Fireworks-Pygame) * 1.先看看成品怎么样 &#8…

Python 2023年9月18日
0033

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Scrapy-redis 实现分布式

大家都在看