小白python爬虫学习4（scrapy初级入门）

2023年10月6日上午8:22 • Python • 阅读 46

scrapy 不是一个爬虫函数功能库，而是一个爬虫框架

那么爬虫框架是什么呢?

爬虫框架是个半成品，能够帮助用户实现专用网络爬虫，是实现爬虫功能的一个软件结构和功能组件，像是一个使用模板，约束稍小。

以下为Scrapy的”5+2″结构

有三条主要的数据流

1.spiders—>Engine—->Scheduler

其中Spider获取用户请求并通过Engine传递给Scheduler，而Scheduler负责对爬取请求进行调度

2.Scheduler—->Engine—->Downloader—->Engine—–>Spiders

其中Engine从Scheduler获取下一个要爬取的请求，Engine获取到请求又通过中间件发送到Downloader模块，Downloader拿到请求就与互联网链接并爬取到相关网页，再将爬取的内容形成对象（Responses），再通过中间件Engine发送给Spiders

3.Spiders—->Engines——>Item Pipelines或到达Scheduler模块

Spiders获取响应（Response）之后产生两个爬取的相关类型一个是爬取项（Item），另一个是新的爬取请求（Requests）对应的将Item项发送给Item Pipelines模块，将Requests发送给Schedulers进行相关调度

从数据流的过程我们可以发现，这个框架的出口是Item Pipelines 而入口是Spiders，而在5+2的结构中ENGINE，DOWNLOADER，SCHEDULER都是已有实现，我们并不需要去编写他们

我们只需要编写这个出口和入口，也就是ITEM PIPELINES（负责对提取的信息进行后续处理）与 SPIDERS（用来为整个框架去提供要爬取的链接，同时解析要获得的内容）

之后来看一下各个部分的功能

Engine:控制所有模块之间的数据流，并根据条件触发事件

Downloader ：根据请求下载网页，不需要用户修改

Scheduler：对所有爬取请求进行调度管理，不需要用户修改

Downloader MIddleware 目的：实施Engine，Scheduler和Downloader之间进行用户可配置的控制。功能：修改，丢弃，新增请求或响应。可编写配置代码

Spiders 解析Downloader返回的响应（Response），产生爬取项（scraped item），产生额外的爬取请求（Request）

Item Pipeline 处理产生的信息，由一组操作顺序组成，类似流水线，需要用户配置

Spider Middleware 通过对修改，丢弃，新增对请求和爬取项的处理

命令说明格式startproject常见一个新工程scrapy startproject

scrapy genspider[options]

settings获取爬虫配置信息scrapy settings [options]crawl运行一个爬虫scrapy crawl

生成器非常重要，yield可以将结果逐个返回

Original: https://blog.csdn.net/qq_40533899/article/details/113607716
Author: 不会打代码的猪
Title: 小白python爬虫学习4（scrapy初级入门）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792443/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

超市营业额数据分析

文章目录 1：查看单日交易额最小的3天的交易数据，并查看这3天是周几 * 1.1：导入模块 1.2：数据处理 1.3：输出结果完整代码 2：把所有员工的工号前面增加一位数字，增加…

Python 2023年8月7日
0052
Notebook交互式完成目标检测任务

摘要：本文将介绍一种在Notebook中进行算法开发的新方式，新手也能够快速训练自己的模型。目标检测是计算机视觉中非常常用且基础的任务，但是由于目标检测任务的复杂性，往往令新手望…

Python 2023年10月28日
0018
Pytest断言

🔴pytest 允许使用标准的python assert 用于验证Python测试中的期望和值。所以并不像unittest的那么丰富。但是我们可以重写。❞ 小例子–介绍…

Python 2023年9月14日
0049
用python实现植物大战僵尸（游戏截图+动态演示+源码分享）

大家好，我是梦执，对梦执着。希望能和大家共同进步！下面给大家带来python实现植物大战僵尸的的源码分享，只含有冒险模式。截图+动态演示+源码分享游戏截图动态演示源码分享…

Python 2023年9月18日
0026
HTML小游戏12 —— 汽车赛道飙车游戏（附完整源码）

维京战争，一个都不能死，捕鱼达人，植物大战僵尸，3D魔方，青蛙吃苍蝇，蜘蛛纸牌，贪吃蛇，水果削除，2048中文版，大鱼吃小鱼，飞机大战，跑酷小游戏，贪吃蛇2.0,射击鸭子，激流勇…

Python 2023年9月16日
0030
Uniapp And Taro一些小测评

前情最近公司准备新开发一个小程序项目，对于使用哪一款小程序框架有一些犹豫，我有过2年左右的uniapp项目开发经验，Taro在刚刚出来的时候有尝试过，经常莫名报错需要重启，在内心…

Python 2023年10月15日
0057
实现opencv、PIL、matplotlib对图像的保存、显示和其他操作

OpenCV是一个计算机视觉和机器学习软件库。 1.读取图片一，图片基本操作cv2.imread(filepath,flags)读入图片，注意：读取的通道顺序是BGR impor…

Python 2023年8月31日
0046
python dataframe新增一列

1、直接在后面新增一列指明列名，并赋值即可：data[‘addlist’]=[1,2]2、在指定位置新增一列用insert()函数，data.insert(…

Python 2023年8月2日
0028
基于OpenHarmony的智能喝水提醒器

一、硬件说明Neptune OpenHarmony物联网IOT模组Wi-Fi&蓝牙双模开发板、超声波模块、蜂鸣器模块、杜邦线若干开发板相关资料：实现效果将水杯放到超声波传…

Python 2023年10月21日
0021
Python + matplotlib.animation 模拟斜抛运动动画（含完整代码）

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月31日
0034
pytest（一）–安装和入门

参考官网：https://docs.pytest.org/en/latest/getting-started.html ，https://docs.pytest.org/en/la…

Python 2023年9月15日
0074
Python(九)使用pylot做高并发测试

前言本章主要讲述运用pylot对接口进行高并发压力测试，比Jmeter做起来更快前置环境 python 2.5 pylot 1.26 numpy 2.5 Matplotlib …

Python 2023年9月5日
0041
python中blit的意思_pygame中的surface.blit（）函数是什么？它有什么作用？它是如何工作的？…

I am a beginner in Python and I am not clear about the function surface.blit(). What does …

Python 2023年9月21日
0043
Linux chmod命令详解，Linux修改文件权限

「作者主页」：士别三日wyx「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者 chmod 命令一、常用操作 * 1. 字母形式 2. 数…

Python 2023年11月5日
0035
每天15分钟学习python（8）-数组的创建

创建数组——NumPy 模块数组：相同类型的数据的合集 1.1 array()创建数组 import numpy as np #导入numpy模块并简写为np a = np.ar…

Python 2023年8月28日
0040
【从零开始玩量化1】AKShare: Python开源财经数据接口库

文章目录量化的第一步：数据 AKShare介绍 AKShare安装 AKShare使用 AKTools安装/使用结语量化的第一步：数据想要玩量化，第一步要有数据，这个数据可…

Python 2023年8月2日
0087

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

小白python爬虫学习4（scrapy初级入门）

scrapy 不是一个爬虫函数功能库，而是一个爬虫框架

那么爬虫框架是什么呢?

有三条主要的数据流

之后来看一下各个部分的功能

大家都在看