Scrapy_redis分布式原理

2023年10月6日上午10:38 • Python • 阅读 36

今天分享一下Scrapy_redis分布式原理：
1 scrapy_redis是什么

Scrapy_redis ： Redis-based components for Scrapy.

Github地址：

在这个地址中存在三个demo，后续我们对scrapy_redis的使用会通过这三个demo展开

2 为什么要学习scrapy_redis

Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：

请求对象的持久化
去重的持久化
和实现分布式

3 scrapy_redis的原理分析

3.1 回顾scrapy的流程

那么，在这个基础上，如果需要实现分布式，即多台服务器同时完成一个爬虫，需要怎么做呢？

3.2 scrapy_redis的流程

在scrapy_redis中，所有的带抓取的对象和去重的指纹都存在所有的服务器公用的redis中
所有的服务器公用一个redis中的request对象
所有的request对象存入redis前，都会在同一个redis中进行判断，之前是否已经存入过
在默认情况下所有的数据会保存在redis中

具体流程如下：

4 对于redis的复习

很多人对redis的命令遗忘的差不多了, 但是在scrapy_redis中需要使用redis的操作命令,所有需要回顾下redis的命令操作

4.1 redis是什么

redis是一个开源的内存型数据库，支持多种数据类型和结构，比如列表、集合、有序集合等,同时可以使用redis-manger-desktop等客户端软件查看redis中的数据，关于redis-manger-desktop的使用可以参考扩展阅读

4.2 redis服务端和客户端的启动

/etc/init.d/redis-server start 启动服务端
`redis-cli -h

4.3 redis中的常见命令

select 1 切换db
keys * 查看所有的键
tyep 键 查看键的类型
flushdb 清空db
flushall 清空数据库

4.4 redis命令的复习

redis的命令很多，这里我们简单提及一下后续会使用的命令：

列表:

LPUSH mylist “world” >向mylist从左边添加一个值

LRANGE mylist 0 -1 >返回mylist中所有的值

LLEN mylis >返回mylist的长度

set:

redis> SADD myset “Hello” >往set中添加数据

SMEMBERS mysetredis> >获取myset中所有的元素

redis>SCARD myset >scrad 获取数量

zset:

redis> ZADD myzset 1 “one”

(integer) 1

redis> ZADD myzset 2 “two” 3 “three”

(integer) 2

redis> ZRANGE myzset 0 -1 WITHSCORES

1) “one”

3″two”

4)121

5″three”

6)131

redis> ZCARD myzset

zadd 向一个zset中添加一个值和分数，如果存在值就更新分数，分数可以相同zrange 遍历myzesetzcard 返回zset中元素的数量

Original: https://blog.csdn.net/ljf520lhy/article/details/128337083
Author: 不喜欢穿格子衫的程序员
Title: Scrapy_redis分布式原理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792517/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

简单的利用boost.python 和 boost.numpy 实现python和c++之间数据通信例子

boost.python对c++很友好，甚至能直接将python的一些数据结构 list（列表），dict（字典）和相互嵌套等数据传输到c++，boost.numpy也方便pyth…

Python 2023年8月29日
0087
搭建简单的Web学生成绩管理系统项目 (python+flask+html+css+mysql)

项目概述技术栈 (python+mysql+html+css+flask框架)此系统后端采用python以及flask框架，数据库使用Mysql,前端利用HTML+CSS美化。 …

Python 2023年8月10日
0097
Docker Compose安装部署Jenkins

流水线可以让项目发布流程更加清晰，docker可以大大减少Jenkins配置。 1、前言数据卷挂载到 /var 磁盘目录下，因为该磁盘空间较大，后面需要挂载容器数据卷，以防内存吃…

Python 2023年10月15日
0051
python科学计算的可视化

1）科学计算库：安装：pip install numpy导入：import numpy as np（2）绘制图像库:安装：pip install matplotlib导入：impo…

Python 2023年9月4日
0037
彻底卸载并重装Anaconda环境与Python的方法

本文介绍在 Windows平台下，彻底删除 Anaconda环境与其自带 Python版本，并进行重新安装的方法。最近，由于原有 Anaconda环境中的部分第三方库出现了冲突的…

Python 2023年10月7日
0055
统计图表-条形图与直方图

条形图与直方图 1. 条形图 * 1.1 常用参数 1.2水平显示条形图 1.3 对比条形图 1.4 堆积条形图 2. 直方图 * 2.1 常用参数 2.2 seaborn中的直方…

Python 2023年9月2日
0058
scrapy shell list crawl 命令行无显示退出 no echo quit scrapy 踩坑

一、问题描述博主在搞一个scrapy 爬虫项目时，前几天一直正常，但某一天开始，运行 scrapy shell 或者 scrapy list 或者 scrapy crawl 之类…

Python 2023年10月1日
0039
python数据分析基础02——pandas相关操作

import pandas as pd import numpy as np from pandas import DataFrame 替换操作可以同步作用于Series和Data…

Python 2023年8月19日
0045
CASS实用操作：绘制房子与绿地

在工作中有一些小技巧如果能够熟练使用可以提高我们的工作效率，今天来介绍一下cass的实用操作。 1 画房子直接输入ff ,按照我们需要花房屋的结构直接选择需要画的房屋。如果我们打…

Python 2023年9月19日
00133
python大数据可视化坐标轴的定制与绘制3D图表及统计地图

一、坐标轴的定制1、概述：坐标轴及其组成部分对应着matplotlib中一些类的对象︰坐标轴是axis.Axis类的对象，x轴是axis.Xaxis类的对象，y轴是axis.Yax…

Python 2023年9月2日
0045
nnUNet使用指南（一）：Ubuntu系统下使用nnUNet对自己的多模态MR数据集训练

nnUNet地址 nnUNet的安装安装python虚拟环境(作者不建议使用conda环境) sudo apt-get install -y python3-venv或 pip …

Python 2023年10月28日
0095
django中APIView里的dispatch和as_view方法分析

位置： from rest_framework.views import APIView 继承APIView类视图形式的路由： path(‘booksapiview/’, view…

Python 2023年10月31日
0028
Pandas数据清洗总结

# 导入 import numpy as np import pandas as pd # 查看版本 pd.version 文本文件的读取：对于csv或txt后缀的文本文件，用r…

Python 2023年8月19日
0046
创建一个Django项目总结

2022-09-25 首先，要安装好虚拟环境，之后要切换到虚拟环境中，使用的命令之后，创建一个Django项目使用的命令：进入到该项目的目录下，创建一个子应用，使用的命令：其…

Python 2023年6月9日
0064
基于Anaconda搭建Django环境

一、介绍 Django特点：具有完整的封装，开发者可以高效率的开发项目，Django将大部分的功能进行了封装，开发者只需要调用即可，如此，大大的缩短了开发的时间，同时也因为太多封装…

Python 2023年8月3日
0045
【机器学习】李宏毅——Flow-based Generative Models

前文我介绍了部分关于生成学习的内容，可以参考我这篇博文点此前面介绍的各个生成模型，都存在一定的问题：对于PixelRNN这类模型来说，就是从左上角的像素开始一个个地进行生成，那么…

Python 2023年10月28日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy_redis分布式原理

大家都在看