爬虫日记(78)：Scrapy的命令运行入口点

2023年10月4日下午5:19 • Python • 阅读 65

前面经历了从安装程序转到scrapy程序运行，再从scrapy程序开始读取配置参数，再到命令行里处理参数，这样就把前期的工程准备好了，接着就来到了最后的阶段，运行爬虫了。这个阶段是最为复杂的内容，不但要分离各个功能模块，还需要把它们串联在一起。分离导致思考独立了，但串联又要整合，这种模式会让人头脑比较分裂状态，既想分离得干干净净，又想整合得天衣无缝，一直是矛盾的两面。

我们来看一下函数execute最后的三行代码：

第145行是创建一个CrawlerProcess类对象，这个类用来实现同一个进程内运行多个爬虫类。CrawlerProcess类是继承CrawlerRunner类，这个类用来跟踪、管理和运行多个爬虫的类。这个类保存在命令对象crawler_process的类变量里，这样所有类对象都使用同一个实例。

第146行调用_run_print_help函数来运行命令，同时方便输出错误信息，在前面已经介绍过。这里主要运行的函数是_run_command，它是用来实现运行命令的两种不同的方式：性能测试运行和正常运行，性能测试运行是用来观察爬虫运行之后的性能，比如内存占用、运行时间等等；正常运行，就是普通直接工作时运行爬虫。

Original: https://blog.csdn.net/caimouse/article/details/117187670
Author: caimouse
Title: 爬虫日记(78)：Scrapy的命令运行入口点

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791176/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

微博大 V 用户画像与热点话题分析

微博大 V 用户画像与热点话题分析前言 * 一、查看数据二、清洗数据三、用户画像四、热点话题分析前言该文档包含设计思路、过程和分析结果，完整代码见ipynb文档。数据集…

Python 2023年8月17日
0052
极客巅峰2021 web opcode

文章目录前言一、源码泄露二、分析源码二、解题步骤总结更新前言打完了极客巅峰，说说感想：真就越来越菜了？？签到都没出，直接0分，比刚入门那会儿还惨下了两个pwn，一…

Python 2023年8月14日
0079
【关系抽取】深入浅出讲解实体关系抽取（介绍、常用算法）

关系抽取的背景和定义关系抽取（Relation Extraction，简称 RE）的概念是1988年在MUC大会上提出，是信息抽取的基本任务之一，目的是为了识别出文本实体中的目标…

Python 2023年10月8日
0063
PYTHON自动化框架总结：SELENIUM+PYTEST+ALLURE

文章目录一、PYTEST * 1、使用pytest执行测试需要遵循的规则 2、数据驱动 3、pytest.fixture 4、结合ALLURE报告 5、pytest.assume…

Python 2023年9月9日
0050
读书笔记_python网络编程3_(4)

讨论网络地址，&#…

Python 2023年6月9日
0068
python入门基础(4)–列表增、删、改及操作

一、先定义names的列表，其中有5个名字 names=[‘xiaozhan’,’caiyilin’,’huangxia…

Python 2023年11月3日
0065
Numpy笔记

Numpy笔记 * – 3.1 Numpy优势 – + 3.1.2 ndarray介绍 + 3.1.3 ndarray与Python原生list运算效率对比…

Python 2023年8月27日
0066
Python全栈开发【第一篇】：Python安装与初识

在学习python之前我们可以先学习一些Linux的简单语法，帮助我们对python语句的编译和执行有一个更好的理解，同时如果我们以后开发的python程序需要用到服务器，可以直接…

Python 2023年11月3日
0036
MongoDB与阿里云交出三年合作优秀“成绩单”，携手开启下一站创新

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月7日
0048
在powershell中conda不能激活虚拟环境的解决方法

在powershell中conda不能激活虚拟环境的解决方法目录在powershell中conda不能激活虚拟环境的解决方法 * 一、简介二、问题三、方法一、简介什么是…

Python 2023年9月8日
0086
Python写的简单的坦克大战小游戏

前言部分鄙人本学期手贱选了一门Python，这也完全得益于公众号里铺天盖地的Python广告，让我对Python的印象深刻，觉得没有Python干不了的活。然而在下实在不才，一学…

Python 2023年9月20日
0039
我在京东做研发 | 京东云算法科学家解析爆火的ChatGPT

令人惊艳的ChatGPT横空出世背后有怎样的前沿技术支撑走向大规模产品应用又有何局限深耕对话式AI技术十余年京东云算法科学家将带您一同走进技术世界解析ChatGPT的技术…

Python 2023年10月29日
0035
import MySQLdb as Database ModuleNotFoundError: No module named ‘MySQLdb‘

import MySQLdb as Database ModuleNotFoundError: No module named ‘MySQLdb’ impo…

Python 2023年6月10日
0071
Flask 重定向和HTTP方法

Flask URL构建 Redirect重定向 url_for()函数对于动态构建特定函数的URL非常有用。 url_for() 函数接受函数的名称作为第一个参数，以及一个或 …

Python 2023年8月13日
0092
超详细 Ubuntu安装PyTorch步骤

目录 STEP1：进入PyTorch官网查看安装版本和指令 STEP2：为PyTorch单独创建conda环境 STEP3：进入STEP2中创建的conda环境 STEP4：输入S…

Python 2023年10月8日
0059
基于.NetCore开发博客项目 StarBlog – (18) 实现本地Typora文章打包上传

九月太忙，只更新了三篇文章，本来这个功能是从九月初就开始做的，结果一直拖到现在国庆假期才有时间完善并且写文章~ 之前我更新了几篇关于 Python 的文章，有朋友留言问是不是不更新…

Python 2023年10月19日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

爬虫日记(78)：Scrapy的命令运行入口点

大家都在看