Scrapy爬取4-项目分布式和gerapy部署

2023年10月1日下午5:16 • Python • 阅读 54

1.分布式部署：

得先安装scrapy_redis库
分布式的安装及讲解：https://editor.csdn.net/md/?articleId=124085978

需要下载redis
redis数据库的安装：https://blog.csdn.net/weixin_44826986/article/details/123700992

在Scrapy项目的 setting.py文件中加入：

SCHEDULER = "scrapy_redis.scheduler.Scheduler"
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

REDIS_URL = 'redis://192.168.1.102:6379'
SCHEDULER_PERSIST = True

即可

运行写好的Scrapy爬虫，可以在redis数据库中看到分布式

2.gerapy部署：

使用gerapy之前需要保证Scrapyd是可用的
直接在终端 CMD中输入： scrapyd
检测是否启动scrapd：
在 浏览器中输入： http://127.0.0.1:6800/
显示如下，成功启动

Gerapy使用流程：

1.gerapy init 初始化,会在文件夹下创建一个gerapy文件夹
2.cd gerapy
3.gerapy migrate
4.gerapy runserver 默认是127.0.0.1:8000
5.gerapy createsuperuser 创建账号密码,默认情况下都是没有的
6.游览器输入127.0.0.1:8000 登录账号密码,进入主页
7.各种操作,比如添加主机,打包项目,定时任务等

在目标文件夹下输入 gerapy init

会生成一个gerapy文件夹，输入 cd gerapy进入文件夹
再使用语句 gerapy migrate，生成gerapy数据库

启动gerapy服务： gerapy runserver

在浏览器中输入：http://127.0.0.1:8000/

Ctrl+c终止刚才运行的gerapy runserver
创建超级用户，用来管理gerapy
输入语句 gerapy createsuperuser

之后再次启动 gerapy： gerapy runserver
用刚才设定的超级用户用户名和密码输入登录：

; 2.1更改Scrapy的gerapy连接文件：

在书写完毕的scrapy文件中，找到 scrapy.cfg文件

2.2登录后的项目部署：

点击主机管理：

创建：

IP：本机IP，在CMD使用ipconfig查看
端口：scrapyd的端口号

若出现无法连接的情况，则是Scrapyd配置中的问题需要更改：
文件路径：E:\software\python\python3.8.6\Lib\site-packages\scrapyd
找到default_scrapyd.conf文件
把bind_address改为 0.0.0.0 这样所有IP都可以连接

之后在./gerpay/projects中将完善好的Scrapy爬虫文件夹fangru

即可在gerapy网页项目管理中查看到,点击部署

文件需要进行打包才可以进行部署

部署到刚才创建的主机中：

再看到主机项目中：使用调度

点击运行即可

注意：
启动一次gerapy之后，可能会有无法再爬取数据的情况，这是因为分布式的原因，代码为这行：


SCHEDULER_PERSIST = True

启动过一次之后，Redis数据库中的数据存满若再次执行会有指纹重复导致无法运行程序
若要多次运行爬虫，则有两种方法：
1.将 SCHEDULER_PERSIST = False设为False；
2.每次运行清空redis数据库中关于指纹的数据；

Original: https://blog.csdn.net/weixin_44826986/article/details/124144258
Author: BunnyDuudu
Title: Scrapy爬取4-项目分布式和gerapy部署

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788901/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AngouriMath: 用于C#和F#的开源跨平台符号代数库

AngouriMath是一个MIT协议开源符号代数库。也就是说，通过AngouriMath，您可以自动求解方程、方程组、微分、从字符串解析、编译表达式、处理矩阵、查找极限、将表达式…

Python 2023年10月17日
0043
Python列表推导器

1. 编写程序列出c:/windows下的所有exe文件和dll文件，使用列表推导 #方法：使用os.listdir import os aList=[filename for …

Python 2023年10月5日
0052
怎么用python做一个解压缩小工具，以后再也不用下载各种格式的解压缩软件了…

经常由于各种压缩格式的不一样用到文件的解压缩时就需要下载不同的解压缩工具去处理不同的文件，以至于桌面上的压缩工具就有三四种，于是使用python做了一个包含各种常见格式的文件解压缩…

Python 2023年5月24日
0067
ChatGPT 背后的“功臣”——RLHF 技术详解

OpenAI 推出的 ChatGPT 对话模型掀起了新的 AI 热潮，它面对多种多样的问题对答如流，似乎已经打破了机器和人的边界。这一工作的背后是大型语言模型 (Large Lan…

Python 2023年11月4日
0041
pytest框架编写

pytest分为四个步骤：编写测试用例 – 收集测试用例 – 执行测试用例 – 生成测试报告。编写测试用例：用例名称、用例步骤、预期结果、实…

Python 2023年9月13日
0058
Datawhale学习打卡-02(Matplotlib)

Datawhale学习打卡-02(Matplotlib) 参考资料：第二回：艺术画笔见乾坤第二回：艺术画笔见乾坤（上篇）一、基本概念和用法关于matplotlib的基本概念和…

Python 2023年9月6日
0056
面试官：如何进行 JVM 调优（附真实案例）

前言面试官：在工作中做过 JVM 调优吗？讲讲做过哪些 JVM 调优？我一个QPS不到10的项目，上次问我缓存穿透缓存雪崩，这次问我 JVM 调优，我是真滴难。不过大家别慌，…

Python 2023年9月27日
0046
痞子衡嵌入式：RT-MFB – 一种灵活的i.MXRT下多串行NOR Flash型号选择的量产方案

大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是一种灵活的i.MXRT下多串行NOR Flash型号选择的量产方案。对于以 i.MXRT 这类没有内部 NVM …

Python 2023年10月19日
0063
Python网站导航项目-3.导航数据后端管理应用开发

每每用到别人的导航网站会充斥的各种的广告，以及很多无用的内容，用起来真的很烦人。把内容网址收藏到浏览器中又很不方便，因此基于git的前端代码结合Django Web开发自制一套简易…

Python 2023年8月5日
0059
寻找领域不变量：从生成模型到因果表征

1 领域不变的表征在迁移学习/领域自适应中，我们常常需要寻找领域不变的表征(Domain-invariant Representation)[1]，这种表示可被认为是学习到各领…

Python 2023年10月29日
0044
Python + Django4 搭建个人博客（三）: 搭建虚拟环境和创建项目

目录配置虚拟环境安装Django 创建Django项目 Django命令结语上篇我们完成了，软件的安装和基本的开发环境搭建，本篇我们开始搭建Python和Django相关的…

Python 2023年8月5日
0047
Python中class内置方法__init__与__new__作用与区别探究

最近尝试了解Django中ORM实现的原理，发现其用到了metaclass(元类)这一技术，进一步又涉及到Python class中有两个特殊内置方法__init__与__new_…

Python 2023年10月31日
0040
[*CTF2022]web题目复现及wp

文章目录 WEB * oh-my-grafana oh-my-notepro – 坑点 oh-my-lotto – 非预期 + PATH变量 WGETRC变…

Python 2023年8月9日
0064
Pandas使用操作(二)

获取列名 1、df.columns df.columns[0] 2、list(df) list(df)[0] 3、df.keys() df.keys()[0] 将空字符串替换为na…

Python 2023年8月19日
0044
如何使用ricequant量化平台进行落单和回测

如何使用ricequant量化平台进行落单和回测： def init(context):：context.s1 = “000001.XSHE”update_…

Python 2023年9月16日
0028
Python反射机制

Python反射一、导包案例二、基础知识 1、是什么 2、怎么用三、、使用案例 Python反射一、导包案例我们导入第三方库，可以使用import。那我们现在…

Python 2023年6月9日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy爬取4-项目分布式和gerapy部署

1.分布式部署：

2.gerapy部署：

; 2.1更改Scrapy的gerapy连接文件：

2.2登录后的项目部署：

大家都在看