（1）Scrapyrt安装与使用

2023年10月4日下午12:53 • Python • 阅读 33

1.简介

Scrapyrt为Scrapy提供了一个调度和使用蜘蛛(spider)的HTTP接口，有了它，我们就不需要再执行Scrapy命令，而是通过请求一个HTTP接口来调度和使用Scrapy蜘蛛(spider)的任务了。Scrapyrt比Scrapyd更轻量，如果不需要分布式多任务的话，可以简单使用Scrapyrt实现远程Scrapy任务的调度。

2.Scrapyrt安装与启动

安装Scrapyrt命令：

pip install scrapyrt

如果在requirements.txt定义了scrapyrt版本，可以根据定义版本安装，否则会安装最新版本，如图所示（查看包版本命令pip list）：

我们可以通过Scrapy项目平台的终端输入命令启动http服务器：

scrapyrt

如图所示启动http服务器成功：

当然可以通过telnet命令查看端口是否相通：

telnet 127.0.0.1 9080

Scrapy项目默认是在端口9080上启动服务器。当然您可以使用-p选项更改服务器将监听的端口：

scrapyrt -p 9081

Scrapyrt组件将会查找项目根目录下的scrapy.cfg文件以确定您的项目设置，如果找不到，则会引发错误。当然还可以通过docker镜像运行Scrapyrt，具体操作这里就不介绍了，有需要可以通过最后参考文献官网地址学习。

3.Scrapyrt HTTP API

现在让我来了解下Scrapyrt HTTP API。Scrapyrt支持/crawl.json可以通过两种方式请求。

3.1GET

目前它接受以下参数：
●spider_name（蜘蛛名称）：
◎字符串类型，必填。
等待调度的spider名称，如果没有找到对应spider名称API将会返回404状态码。
●url（网址）：
◎字符串类型，如果start_requests参数未启用，则为必填。
默认情况下，API将只抓取设置的url参数标准的资源，并且不会执行任何其他请求。最重要的是它不会执行start_requests参数，并且spider不会访问其start_urls属性中定义的url。
●callback（回调）
◎字符串类型，不是必填。
该参数配置解析方法就是对应spider中scrapy.Request的callback解析方法（当前该参数不需要包含字符串”self”）。如果该参数配置解析方法未通过或未在spider上找到，则默认解析方法parse将被使用。
●errback（错误回调）
◎字符串类型，不是必填。
该参数配置解析方法就是对应spider.scrapy.Request的errback解析方法（当前该参数不需要包含字符串”self”）。Scrapy从spider发出的请求爬取数据，它必须作为调度spider的方法存在，否则会引发异常。
●max_requests（最大请求数）
◎整型，不是必填。
spider最大请求数。假设该参数设置为1。则spider将只安排一个请求，则spider生成的其他请求将被忽略。
●start_requests（是否开始请求）
◎布尔型，不是必填。
spider是否应该执行Scrapy.Spider.start_requests方法。在没有Scrapyrt的情况下正常运行 Scrapy Spider默认执行其start_requests。
true：如果配置true，Spider默认不在Scrapyrt API中执行抓取配置url，而是在默认项目Spider.start_requests方法中抓取start_urls 定义url。
false：如果配置false，Spider在默认项目Spider.start_requests方法中抓取start_urls 定义url，而不在Scrapyrt API中执行抓取配置url。
●crawl_args（爬取参数）
◎URL编码的JSON字符串，不是必填。
可以通过使用-a参数运行Spider：

scrapy crawl spider -a zipcode=14100

您还可以发送crawl_args={“zipcode”:”14100″}参数格式（urlencoded：crawl_args=%7B%22zipcode%22%3A%2014100%7D），并且Spider会得到zipcode参数。
●GET示例
假设我们定义一个爬取百度新闻热点spider示例：

http://127.0.0.1:9080/crawl.json?spider_name=baidu_news_board&url=https://top.baidu.com/board?tab=realtime

如图所示：

3.2POST

请求Body必须包含有效的json，其中包含有关使用Spider请求的信息。示例Body json：

{
&#xA0; &#xA0; "request": {
&#xA0; &#xA0; &#xA0; &#xA0; "url": "https://top.baidu.com/board?tab=realtime",
&#xA0; &#xA0; &#xA0; &#xA0; "callback": "parse",
&#xA0; &#xA0; &#xA0; &#xA0; "dont_filter": "True"
&#xA0; &#xA0; },
&#xA0; &#xA0; "spider_name": "baidu_news_board"
}

也可以配置复杂一点body json：

{
&#xA0; &#xA0; "request": {
&#xA0; &#xA0; &#xA0; &#xA0; "url": "https://top.baidu.com/board?tab=realtime",
&#xA0; &#xA0; &#xA0; &#xA0; "meta": {
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "category": "some category",
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "item": {
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "discovery_item_id": "999"
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; }
&#xA0; &#xA0; &#xA0; &#xA0; },
&#xA0; &#xA0; &#xA0; &#xA0; "callback": "parse",
&#xA0; &#xA0; &#xA0; &#xA0; "dont_filter": "True",
&#xA0; &#xA0; &#xA0; &#xA0; "cookies": {
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "foo": "bar"
&#xA0; &#xA0; &#xA0; &#xA0; }
&#xA0; &#xA0; },
&#xA0; &#xA0; "spider_name": "baidu_news_board"
}

POST接口Body中的json必须具有以下键：
●spider_name（蜘蛛名称）：
◎字符串类型，必填。
等待调度的spider名称，如果没有找到对应spider名称API将会返回404状态码。
●max_requests（最大请求数）
◎整型，不是必填。
spider最大请求数。
●request（请求对象）
包含Scrapy请求对象的参数，该对象将由Spider创建和调度。
请求json对象必须包含以下键：
◎url（网址）：
字符串类型，必填。
它可以包含Scrapy Request类支持的所有参数。
●POST示例

http://127.0.0.1:9080/crawl.json
{
&#xA0; &#xA0; "request": {
&#xA0; &#xA0; &#xA0; &#xA0; "url": "https://top.baidu.com/board?tab=realtime",
&#xA0; &#xA0; &#xA0; &#xA0; "callback": "parse",
&#xA0; &#xA0; &#xA0; &#xA0; "dont_filter": "True"
&#xA0; &#xA0; },
&#xA0; &#xA0; "spider_name": "baidu_news_board"
}

如图所示：

3.3Response（响应）

crawl.json返回json对象。根据请求是否成功，json对象中的字段可能会有所不同。

3.3.1Success response（成功响应）

成功响应的json响应具有以下键：
●status（状态码）
成功响应状态总是ok。
●spider_name（蜘蛛名称）：
请求中的spider。
●stats（统计数据）
Scrapy stats from finished job.

已完成作业的Scrapy统计数据。
●items（项目）
抓取的项目。
●items_dropped（丢弃项目）
丢弃的项目
●errors
包含具有爬取网址错误回溯的字符串列表。仅当调试设置设置为True时可用。
●示例：

{
&#xA0; &#xA0; "status": "ok",
&#xA0; &#xA0; "items": [
&#xA0; &#xA0; &#xA0; &#xA0; {
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "HotSearchIndex": 2041483,
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "Title": "&#x6E56;&#x5357;&#x9752;&#x5C11;&#x5E74;&#x7BEE;&#x7403;&#x51B3;&#x8D5B;&#x73B0;&#x573A;&#x4E24;&#x961F;&#x4E92;&#x6BB4;",
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "Content": "1&#x65E5;&#xFF0C;&#x6E56;&#x5357;&#x5CB3;&#x9633;&#x7B2C;14&#x5C4A;&#x6E56;&#x5357;&#x7701;&#x8FD0;&#x52A8;&#x4F1A;&#x4E0A;&#xFF0C;&#x957F;&#x6C99;&#x961F;&#x5728;&#x548C;&#x5A04;&#x5E95;&#x961F;&#x8FDB;&#x884C;&#x6BD4;&#x8D5B;&#x65F6;&#xFF0C;&#x56E0;&#x4E24;&#x65B9;&#x961F;&#x5458;&#x53D1;&#x751F;&#x77DB;&#x76FE;&#x4E92;&#x6BB4;&#x961F;&#x5458;&#x3002;&#x76EE;&#x51FB;&#x8005;&#x79F0;&#xFF1A;&#x6301;&#x7EED;2&#x5206;&#x949F;&#xFF0C;&#x540E;&#x6765;...",
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "CreateTime": "2022-09-02 16:35:05",
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; "UpdateTime": "2022-09-02 16:35:05"
&#xA0; &#xA0; &#xA0; &#xA0; &#xA0; &#xA0; ]
&#xA0; &#xA0; &#xA0; &#xA0; }
&#xA0; &#xA0; ],
&#xA0; &#xA0; "items_dropped": [],
&#xA0; &#xA0; "stats": {
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/request_bytes": 439,
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/request_count": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/request_method_count/GET": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/response_bytes": 141460,
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/response_count": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "downloader/response_status_count/200": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "elapsed_time_seconds": 2.189224,
&#xA0; &#xA0; &#xA0; &#xA0; "finish_reason": "finished",
&#xA0; &#xA0; &#xA0; &#xA0; "finish_time": "2022-09-02 08:35:05",
&#xA0; &#xA0; &#xA0; &#xA0; "item_scraped_count": 31,
&#xA0; &#xA0; &#xA0; &#xA0; "log_count/DEBUG": 125,
&#xA0; &#xA0; &#xA0; &#xA0; "log_count/INFO": 41,
&#xA0; &#xA0; &#xA0; &#xA0; "response_received_count": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "scheduler/dequeued": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "scheduler/dequeued/memory": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "scheduler/enqueued": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "scheduler/enqueued/memory": 1,
&#xA0; &#xA0; &#xA0; &#xA0; "start_time": "2022-09-02 08:35:03"
&#xA0; &#xA0; },
&#xA0; &#xA0; "spider_name": "baidu_news_board"
}

3.3.2Error response（失败响应）

失败响应的json响应具有以下键：
●status（状态码）
失败响应状态总是error。
●code（响应码）
HTTP响应码。
●message（消息）
请求失败的错误消息。
●示例：

{
&#xA0; &#xA0; "status": "error",
&#xA0; &#xA0; "message": "Missing required parameter: 'request'",
&#xA0; &#xA0; "code": 400
}

还有Scrapyrt的Configuration（配置）、Command line arguments（命令行参数）、Logging（日志记录）等功能，精力有限，这里我就不多介绍了，有兴趣小伙伴可以到以下参考文献链接学习。

参考文献：
Scrapyrt主页https://scrapyrt.readthedocs.io/en/latest/index.html

Original: https://blog.csdn.net/wzk153/article/details/126668598
Author: 老葱头蒸鸡
Title: （1）Scrapyrt安装与使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791031/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest-allure美化——定制化输出测试报告

点击关注，我们共同每天进步一点点！一、定制化后的效果展示用两张图展示效果：二、注意别踩坑 allure定制化想必大部分情况都会去选择pip install pytest-al…

Python 2023年9月9日
0066
用Python写简单游戏的一般步骤

自己用python写过几个简单的游戏后，发现对于已经写过的这些游戏而言，其创作流程都有一些相通性，自此小结一下用python写游戏的一般步骤。从我看来，目前python仍然是写游…

Python 2023年9月20日
00130
python 整合同类数据求分位值_【利用python进行数据分析】数据聚合与分组运算…

在将数据集准备好了之后，通常的任务是计算分组统计或生成透视表。 pandas提供了groupby功能，可以自然地对数据集进行切片、切块和摘要。在本章中，我们将会学到： 1根据一个…

Python 2023年8月9日
0060
Python——静态方法、类方法、公有方法、私有方法

普通实例方法，第一个参数需要是self，它表示一个具体的实例本身。静态方法是类中不需要实例的函数，无self，仅仅是类中的函数。可以由类实例或类调用。（1）使用staticmet…

Python 2023年5月24日
00128
python 两个dataframe 相关性计算_根据列值计算两个pandas dataframe之间的值

编辑：让我复制整个数据集 df是门店销售/库存数据branch daqu store store_name style color size stocked sold in_sto…

Python 2023年8月20日
0080
Python实现将Excel表格内容批量分离导出为PDF文件

上一篇咱们实现了多个表格数据合并到一个表格，本次咱们来学习如何将表格数据分开导出为PDF文件。部分数据然后需要安装一下这个软件 wkhtmltopdf 效果展示将每个数据单独…

Python 2023年5月24日
00111
2022亚太C题详细思路

2022年亚太今日已经正式开赛，为了帮助大家更好的选题建模，这里首先对ABC三道题目进行浅要评析，以方便大家更好的择题。同时相关资料也会后续进行补充。预计明日公布各题统计选题人数以…

Python 2023年10月8日
0061
pandas子集选取的三种方法：[]、.loc[]、.iloc[]

pandas读取Excel、csv文件中的数据时，得到的大多是表格型的二维数据，在pandas中对应的即为 DataFrame数据结构。在处理这类数据时，往往要根据据需求先获取数据…

Python 2023年5月24日
0096
【Python爬虫】招聘网站实战合集第一弹：爬取前程无忧

休想。我这就把代码贴出来。这一过程是明确的。我还标记了这些评论。 [En] Forget it. I’ll just post the code. The proces…

Python 2023年5月25日
00151
Python模块注入

注：只是自己学习记录，若有不对的地方请指出，如果觉着我写的不好或者什么的，可以去看我放在下面的大师傅的讲解，都是比较详细的简单的flask from flask import F…

Python 2023年8月10日
0076
斑马问题多方法求解

人工智能导论实验导航实验一：斑马问题 https://blog.csdn.net/weixin_46291251/article/details/122246347 实验二：图像…

Python 2023年8月3日
0056
【python基础】reverse和reversed函数及使用

reverse()是python中列表的一个内置方法(在字典、字符串和元组中没有这个内置方法)，用于列表中数据的反转例子： lista = [1, 2, 3, 4] lista….

Python 2023年9月26日
0036
Ubuntu20.04安装vscode配置python环境

记录一下在Ubuntu20.04下安装vscode并配置python环境的过程 1、安装vscode 在官网上下载vscode deb安装包，官网地址 Visual Studio …

Python 2023年8月1日
0092
学习笔记：多模态

1.多模态数据：不同的存在形式或信息来源均可被称之为一种模态。由两种或两种以上模态组成的数据称之为多模态数据（多模态用来表示不同形态的数据形式，或者同种形态不同的格式，一般表示文…

Python 2023年10月1日
0044
【Pandas数据分析4】数据操作

文章目录四、数据操作 * 1、数据的增加 – 1.1 按列增加数据 1.2 按行增加数据 1.3 增加多行数据 2、数据的修改 – 2.1 修改列标题 2…

Python 2023年8月8日
0043
python编写呆呆小鸟游戏

####################引用数据库与函数###################### import pygame from random import randra…

Python 2023年9月19日
0043

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31