scrapy中文指南第一章：scrapy入门知识与安装

2023年10月4日上午4:59 • Python • 阅读 66

第一章：scrapy入门知识与安装

入门知识
*
什么是scrapy
运行流程图以及解释
–
scrapy的安装
*
Anaconda或Miniconda
–
- 界面安装
- 命令行安装
其他系统或非Anaconda安装方式
结束语

入门知识

什么是scrapy

Scrapy 是一个快速、高效、异步多进程的高级网页抓取框架，用于抓取网站并从其页面中提取结构化数据。它有非常广泛的用途，包括从数据挖掘到监控和自动化测试等等。

运行流程图以及解释

; 流程解析

Scrapy 中的数据流由引擎控制，运行流程如下所示：

引擎从 Spider 中获取要抓取的初始请求。
引擎向调度器发送一个调度请求，并要求调度器返回一个请求对象（ url）。
调度器将准备好的请求对象返回给引擎。
引擎将请求发送到下载器，通过下载器中间件（ process_request()）下载该请求的内容。
一旦页面下载完成，下载器生成一个响应（带有页面内容）并将其发送到引擎，通过下载器中间件（参见 process_response()）。
引擎从下载器接收响应并将其发送给Spider进行处理（处理的过程是用户自定义），通过Spider中间件（参见 process_spider_input()）。
Spider 处理响应，并将抓取的项目（结果）或新的请求（要跟踪的url）返回给引擎，通过 Spider 中间件（参见 process_spider_output()）。
引擎将处理后的项目（结果）发送到项目管道进行结果的存储或使用。同时将处理后的请求发送到调度器，并询问是否有下一个请求需要继续爬取，如果有则重复1-8的动作。

注：该过程会一直重复（从第 1 步开始），直到再也没有来自调度器的请求而结束。

名词解释

1、引擎(EGINE)

引擎负责控制系统所有组件之间的数据流，并在某些动作发生时触发事件。位于上图的最中心位置，也是scrapy框架的核心部件。

2、调度器(SCHEDULER)

调度器接收来自引擎的请求，并在引擎请求时将它们排入队列以便稍后（也给引擎）提供它们，可以认为是一个URL的队列, 队列的插入和取出由引擎操作, 同时调度器还会去除重复的网址。

3、下载器(DOWLOADER)

下载器负责获取网页并将获取的内容提供给引擎，然后引擎再将它们提供给spiders，下载器是建立在twisted这个高效的异步模型上的。

4、爬虫(SPIDERS)

Spiders 是由用户编写的自定义类，用于解析响应（responses）并从中提取项目或要遵循的其他请求。有关更多信息，请参阅spiders。

5、项目管道(ITEM PIPLINES)

一旦项目被Spider提取（或抓取），项目管道负责处理项目。典型的任务包括清理、验证和持久化（如将项目存储在数据库中）。有关更多信息，请参阅项目管道。

6、下载器中间件(Downloader Middlewares)

下载器中间件是位于引擎和下载器之间的特定挂钩，并在请求从引擎传递到下载器时处理请求，以及从下载器传递到引擎的响应。

如果您需要执行以下操作之一，请使用下载器中间件：

在请求发送到下载器之前处理请求（即在 Scrapy 将请求发送到网站之前）；
在将其传递给 Spiders 之前更改收到的响应；
发送一个新的请求而不是将接收到的响应传递给 Spiders；
在不获取网页的情况下将响应传递给 Spiders；
静默的放弃一些请求。

有关更多信息，请参阅下载器中间件。

7、爬虫中间件(Spider Middlewares)

Spider 中间件是位于 Engine 和 Spider 之间的特定挂钩，能够处理 Spider 输入（响应）和输出（项目和请求）。

如果您需要执行以下操作之一，请使用 Spider 中间件：

spider回调的后期处理输出 – 更改/添加/删除请求或项目；
start_requests的后期处理;
spider的异常处理；
根据响应内容为某些请求调用 errback 而不是回调。

有关更多信息，请参阅爬虫中间件。

驱动方式

Scrapy 是用 Twisted 编写的，这是一个流行的 Python 事件驱动网络框架。因此，它使用非阻塞（异步）代码实现并发。

scrapy的安装

Anaconda或Miniconda

如果你的开发环境已经安装了 Anaconda软件，那么安装过程将非常方便，我也推荐你尽量使用 Anaconda进行 python环境的搭建，因为它的确是非常方便的。

界面安装

如下图直接在所有包中搜索 scrapy，选中后进行安装即可

; 命令行安装

通过conda

conda install -c conda-forge scrapy

通过pip

pip install Scrapy

其他系统或非Anaconda安装方式

其他安装方式，来自scrapy官网：https://docs.scrapy.org/en/latest/intro/install.html

结束语

当scrapy包安装好了之后，下一步我们就将初始化一个项目，并介绍项目中各个文件的功能，同时我们将通过一个小例子来初步熟悉scrapy，感受scrapy的独特魅力。

Original: https://blog.csdn.net/silence_pinot/article/details/119915553
Author: 一眼青苔
Title: scrapy中文指南第一章：scrapy入门知识与安装

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790788/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest文档78 – 钩子函数pytest_runtest_makereport获取用例执行报错内容和print内容

pytest在执行用例的时候，当用例报错的时候，如何获取到报错的完整内容呢？当用例有print()打印的时候，如何获取到打印的内容？测试用例如下，参数化第一个用例成功，第二个失败…

Python 2023年9月10日
0043
2022 Python3.8 多线程、多进程最全整理

Original: https://www.cnblogs.com/lihanlin/p/16202645.htmlAuthor: 李翰林Title: 2022 Python3.8…

Python 2023年5月24日
0067
感知器算法解决xor函数

from itertools import count import numpy import random #用到的库。 step_function = lambda x: 1 …

Python 2023年8月27日
0033
python熵权法过程中，权重出现nan值问题

最近在利用熵权法选取最优指标数据时，计算权重得到的是全为nan值的权重，经过分析过程，找到问题所在。熵权法步骤： step 1 :标准化处理 step 2 : 计算每个维度的信息…

Python 2023年8月7日
0043
go 语言之异常处理

go语言异常处理：自定义set 异常处理：错误信息自定义set Original: https://www.cnblogs.com/Fzhiyuan/p/12045473….

Python 2023年6月12日
0072
Pytest—–介绍与基本用法

Pytest：测试用例的管理框架，是在unittest框架基础之上，二次封装的测试框架。 1.简单灵活，容易上手，在conftest.py、pytest.ini配置文件等在文件中充…

Python 2023年9月14日
0046
Chatgpt注册全流程教程

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月24日
0045
Django中间件实现操作日志记录

Django中间件实现操作日志本文通过Django中间件的流程，实现操作日志记录的功能，模块化、拿来即用。功能描述：通过中间件记录 请&#x6C4…

Python 2023年8月5日
0046
选择……

B在Windows系统下，将数据框（DataFrame）对象text存储为D盘下的Excel文件。下列代码正确的是（）。 A . text.to_excel(‘D:\…

Python 2023年9月7日
0032
图像恢复 SWinIR : 彻底理解论文和源代码 (注释详尽）

文章目录 * – 1. SwinIR 论文 – 2. SWinIR 网络结构 – + 2.1 整体框架 + 2.2 浅层特征提取 + 2.3 深…

Python 2023年9月15日
0046
nnUNet使用指南（四）：json文件的配置

代码如下 from collections import OrderedDict import glob import os import re import json from …

Python 2023年6月3日
0075
Python数据分析—pandas类库常用方法

一.pandas Pandas是用于数据操纵和分析，建立在Numpy之上的。Pandas为Python带来了两种新的数据结构：Pandas Series和Pandas DataFr…

Python 2023年8月22日
0043
Pandas的应用-1

Pandas是Wes McKinney在2008年开发的一个强大的分析结构化数据的工具集。Pandas以NumPy为基础（数据表示和运算），提供了用于数据处理的函数和方法，对数据分…

Python 2023年8月8日
0051
数据分析 Numpy快速入门

导入库 import numpy as np 1-数组的创建 1-1 列表创建数组 a1 = np.array([1,2,3]) a1 array([1, 2, 3]) 1-2 元…

Python 2023年8月25日
0050
Python pytest框架（一）

** 简介：与python自带的unittest测试框架类似，但是pytest更简洁、高效，且兼容unittest。支持简单的单元测试和功能测试，结合rquests实现接口测试，…

Python 2023年9月13日
0031
基于Flask的个人博客的搭建

文章目录 * – 一、项目准备 – + 1、激活虚环境 + 2、编辑run.py – 二、渲染模板 – + 1、Flask使用Jin…

Python 2023年8月12日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

scrapy中文指南 第一章：scrapy入门知识与安装