scrapy-redis mysql_Scrapy-redis 分布式

2023年10月6日下午3:26 • Python • 阅读 54

分布式:

架构方式

多台真实机器+爬虫(如requests,scrapy等)+任务共享中心

多台虚拟机器(或者部分虚拟部分真实)+爬虫(如requests,scrapy等)+任务共享中心

多台容器级虚拟化机器(或者部分真实机器)+爬虫(如requests,scrapy等)+任务共享中心

docker+redis+requests+(mysql)

docker+redis+scrapy+scrapy-redis+r(mysql)

中心节点:任务控制-通信redis,数据存储mysql

rconn=redis.Redis(“118.31.46.101″,”6379”) #连接中心节点redis

for i in range(0,5459058):

isdo=rconn.hget(“url”,str(i))

if(isdo!=None): #先取出当前url判断是否爬取过

continue

rconn.hset(“url”,str(i),”1″) #如没有爬过,先把url标记

try:

data=urllib.request.urlopen(“http://www.17k.com/book/”+str(i)+”.html”).read().decode(“utf-8″,”ignore”)

except Exception as err:

print(str(i)+”—-“+str(err))

continue

pat=”

rst=re.compile(pat,re.S).findall(data)

if(len(rst)==0):

continue

name=rst[0]

print(str(i)+”—–“+str(“ok”))

rconn.hset(“rst”,str(i),str(name)) #当前url爬完后,把数据保存

scrapy-redis

pip3 install scrapy-redis

scrapy-redis中queue三种方式:

SpiderQueue = FifoQueue #先进先出

SpiderStack = LifoQueue #后进先出

SpiderPriorityQueue = PriorityQueue #优先队列,默认

scrapy-redis分布式部署:

中心节点安装redis,(mysql)

各子节点均安装python,scrapy,scrapy-redis,python的redis模块,(pymysql)

将修改好的分布式爬虫项目部署到各子节点

各子节点分别运行分布式爬虫项目

一.修改爬虫文件

1.导入scrapy-redis模块:from scrapy_redis.spiders import RedisSpider

2.将当前爬虫类的父类修改成RedisSpider

3.将allowed_domains和start_urls进行删除

4.添加一个新的属性redis_key = ‘xxx’,该属性值表示的就是可以被共享的调度器队列的名称

二.进行配置文件的配置

1.保证爬虫文件发起的请求都会被提交到可以被共享的调度器的队列中

SCHEDULER = “scrapy_redis.scheduler.Scheduler”

2.保证爬虫文件提交的item会被存储到可以被共享的管道中

ITEM_PIPELINES = {

‘scrapy_redis.pipelines.RedisPipeline’: 400

3.配置最终数据存储的redis数据库

REDIS_HOST = ‘redis服务的ip地址’

REDIS_PORT = 6379

REDIS_ENCODING = ‘utf-8’

REDIS_PARAMS = {‘password’:’123456dj’}

4.redis数据库的配置文件进行配置:关闭保护模式和注释掉bind 127.0.0.1

5.开启redis服务和客户端

6.执行爬虫文件:scrapy runspider xxx.py

7.向调度器队列中仍入一个起始的url:

settings:

使用的是可以被共享的调度器

增加了一个去重容器类的配置, 作用使用Redis的set集合来存储请求的指纹数据, 从而实现请求去重的持久化

DUPEFILTER_CLASS = “scrapy_redis.dupefilter.RFPDupeFilter”

使用scrapy-redis组件自己的调度器

SCHEDULER = “scrapy_redis.scheduler.Scheduler”

配置调度器是否要持久化, 也就是当爬虫结束了, 要不要清空Redis中请求队列和去重指纹的set。如果是True, 就表示要持久化存储, 就不清空数据, 否则清空数据

SCHEDULER_PERSIST = True

使用scrapy-redis中封装好的可以被共享的管道

ITEM_PIPELINES = {

‘scrapy_redis.pipelines.RedisPipeline’: 400

配置redis

REDIS_HOST = ‘127.0.0.1’

REDIS_PORT = 6379

REDIS_ENCODING = ‘utf-8’

REDIS_PARAMS = {‘password’:’123456′}

Original: https://blog.csdn.net/weixin_39554290/article/details/113398158
Author: weixin_39554290
Title: scrapy-redis mysql_Scrapy-redis 分布式

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792660/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python 引用其他路径下的module

先说明下情况我在用pyqt开发一个项目odx平台，需要用到github上面： mercedes-benz/odxtools 这个项目，我在本地对odxtools进行了修改，需要在…

Python 2023年5月24日
0088
【Pytest学习笔记】

目录一、pytest单元测试框架二、单元测试框架和自动化测试框架有什么关系三、pytest简介四、使用pytest默认的测试用例规则及基础应用五、pytest测试用例的…

Python 2023年9月13日
0056
【冰糖Python】numpy：上三角矩阵下三角矩阵 numpy.triu() numpy.triu_indices() numpy.tril() numpy.tril_indices()

numpy 中提供了获取矩阵上三角矩阵、下三角矩阵的方法 1、上三角矩阵 numpy.triu()，numpy.triu_indices() （1） numpy.triu(m, k…

Python 2023年8月26日
0040
Python读写excel文件

1 、使用 pandas 库读取 Excel —– 最常用 pandas 可以读取各种各样格式的数据文件，一般输出dataframe 格式。如：txt 、…

Python 2023年8月8日
0047
第五章变形

文章目录一、长宽表的变形 * 1. pivot 2. pivot_table 3. melt 4. wide_to_long 二、索引的变形 * 1. stack与unstack…

Python 2023年8月20日
0054
Django前后端分离概念解析

前言这几年一直在it行业里摸爬滚打，一路走来，不少总结了一些python行业里的高频面试，看到大部分初入行的新鲜血液，还在为各样的面试题答案或收录有各种困难问题于是乎，我自己开…

Python 2023年8月4日
0055
【Leetcode之路 | Java & Python】两数之和（暴力枚举&哈希表）

🤵‍♂️ 个人主页: @计算机魔术师👨‍💻 作者简介：CSDN内容合伙人，全栈领域优质创作者。文章目录一、说在前面二、两数之和 * 2.1、暴力枚举 – 2.1….

Python 2023年8月2日
0081
Net5 WorkService 继承 Quarzt 以及 Net5处理文件上传

Net5 版本以Core为底层非framework框架的windowservice 服务。在VS里叫WorkService 可以以CMD方式运行也可以以Windowservice…

Python 2023年6月6日
0074
python

python学习：Python爬虫编程基础5天速成（2021全新合集）Python入门+数据分析_哔哩哔哩_bilibili 目录 pycharm最新版如何设置自动换行时间戳： …

Python 2023年8月12日
0088
HTML教程③-HTML元素大全(2)表单

HTML系列：人人都懂的HTML基础知识-HTML教程 HTML元素大全(1) HTML元素大全(2)-表单 CSS系列： CSS基础知识筑基常用CSS样式属性 CSS选择器大…

Python 2023年10月17日
0038
django单元测试

测Django的东西仅限于在MTV模型。哪些可以测？哪些不可以。 1、html里的东西不能测。 Html里的HTML代码大部分都是写死的,嵌套在html中的Django模板语言也不…

Python 2023年8月6日
0038
十分钟弄懂最快的APP自动化工具uiautomator2（入门到精通）

目录：导读前言一、介绍二、环境部署三、编写百度贴吧首页脚本四、uiautomator2和appium运行速度比较前言相信很多使用 appium做过APP自动化的人都深…

Python 2023年8月1日
0070
关于用pygame来编写类满天星游戏的全记录二

继续来研究怎么实现消除后的下移，大体思想都已经说了，开始编写函数。先找到第一轮需要下移的元素。 def find_fall_stars(board): all_stars = […

Python 2023年9月20日
0037
python解析json数据的三种方式

目录 * – 1、运用re、json、jsonpath包解析json思路 – 2、三种方式的json解析案例 – + （1）运用re正则表达式解…

Python 2023年8月1日
0036
Prompt-Tuning——深度解读一种新的微调范式

Prompt-Tuning——深度解读一种全新的微调范式作者：王嘉宁邮箱：lygwjn@126.com转载请注明出处：https://wjn1996.blog.csdn.net…

Python 2023年9月28日
0080
爬虫日记(74)：Scrapy项目配置参数源码分析

前面已经知道scrapy程序运行之后，会调用execute（）函数来执行，这是程序入口点，而在这个入口点的背后，第一步做的事情就是获得程序所有的配置参数，因为scrapy程序设计为…

Python 2023年10月5日
0034

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy-redis mysql_Scrapy-redis 分布式

使用的是可以被共享的调度器

使用scrapy-redis中封装好的可以被共享的管道

配置redis

大家都在看