Scrapy爬虫框架

2023年10月1日下午2:44 • Python • 阅读 29

Scrapy架构

Scrapy 是用 Python 实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。我们可以通过Scrapy快速完成一个爬虫程序

这是官网的架构图

各部分组件的功能如下：

Engine( 引擎 ): 负责 Spider 、 ItemPipeline 、 Downloader 、 Scheduler 中间的通讯，信
号、数据传递等。
Scheduler( 调度器 ): 它负责接受引擎发送过来的 Request 请求，并按照一定的方式进行整理排
列，入队，当引擎需要时，交还给引擎。
Downloader （下载器）：负责下载 Scrapy Engine( 引擎 ) 发送的所有 Requests 请求，并将其
获取到的 Responses 交还给 Scrapy Engine( 引擎 ) ，由引擎交给 Spider 来处理，
Spider （爬虫）：它负责处理所有 Responses, 从中分析提取数据，获取 Item 字段需要的数
据，并将需要跟进的 URL 提交给引擎，再次进入 Scheduler( 调度器 ).

Item Pipeline( 管道 ) ：它负责处理 Spider 中获取到的 Item ，并进行进行后期处理详细分析过滤、存储等）的地方。
Downloader Middlewares （下载中间件）：你可以当作是一个可以自定义扩展下载功能的组
件。
Spider Middlewares （ Spider 中间件）：你可以理解为是一个可以自定扩展和操作引擎和
Spider 中间通信的功能组件（比如进入 Spider 的 Responses; 和从 Spider 出去的 Requests ）

所以：对应上面架构图上的scrapy运行流程就是：

（1）首先我们在spider中发起一个request,将一个需要处理的url提交给engine

（2）engine收到这个请求后会发送给scheduler，所有的requset都需要在scheduler中排队等待被处理

（3）scheduler将排序后的request发送给engine

（4）engine收到这个requset后，向d ownloader发起请求下载url链接里面的数据

（5）d ownloader下载好数据后，将数据都存储在response中,将response交给engine

如果下载失败了，这个引擎告诉调度器，这个request 下载失败了，记录一下，我们待会儿再下载

（6）engine把response交给spider处理，spider会处理response,从中分析提取数据

(7) 首先spider提取需要的数据放入item中发送给engine；并且将后面还有要获取数据的url发送给engine作为一个新的request,发送给engine

（8）item数据发送给Pipeline处理，request继续进入scheduler，重复第二步操作

如果scheduler中还有request,程序就不会停止

首先我们需要安装scrapy框架,终端输入命令：

#&#x5B89;&#x88C5;scrapy&#x6846;&#x67B6;
pip install scrapy

#&#x5B89;&#x88C5;&#x5B8C;scrapy&#x540E;&#x6211;&#x4EEC;&#x67E5;&#x770B;&#x4E00;&#x4E0B;scrapy&#x7684;&#x547D;&#x4EE4;&#x6709;&#x54EA;&#x4E9B;
scrapy

首先用到startproject命令，可以直接创建一个scrapy的项目

scrapy startproject ScrapyDemo

然后在你当前目录下就会生成刚才创建的项目

创建好项目后会有这么一段提示：

所以我们直接进入刚才的目录下，创建我们第一个爬虫程序

#&#x8FDB;&#x5165;&#x521A;&#x624D;&#x521B;&#x5EFA;&#x7684;&#x76EE;&#x5F55;&#x4E0B;
cd ScrapyDemo

#&#x5FEB;&#x901F;&#x751F;&#x6210;&#x4E00;&#x4E2A;&#x722C;&#x866B;&#x7A0B;&#x5E8F;
scrapy genspider genspider example example.com

查看生成的爬虫程序 Scrapy.Demo/SpiderDemo/spiders/example.py

class ExampleSpider(scrapy.Spider):
    name = 'example'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass

我们仿照他写一个爬虫程序,BaiDuSpider，查看百度的页面信息

import scrapy
class BaiDuSpider(scrapy.Spider):
    # 爬虫的名称，用于启动爬虫
    name='BaiDuSpider'
    # 设置爬虫允许爬取的域名
    allowed_domains=["baidu.com"]
    # 启动的url
    start_urls=["http://www.baidu.com"]

    #response默认的解析函数
    def parse(self,response):
        print(response.text)

终端启动爬虫命令：

scrapy crawl BaiDuSpider

成功获取到了数据

Original: https://blog.csdn.net/zzds111/article/details/121996462
Author: 今天该取什么名字好
Title: Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788820/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

快收下这枚 Scrapy Requests 口味的爬虫“回魂丹”

本次 Chat 将带你来从 0 到 1 的学习网络爬虫。文章目录 * – + 一、Python 安装那些事 + * 1.1 Python 安装 * 1.2 Pytho…

Python 2023年10月3日
0073
【Python Pandas】处理Excel实践

【功能一】两个excel，需要找到姓名相同的输出历史体重和当前体重，想要的结果为： import tkinter as tk from tkinter import filedi…

Python 2023年8月8日
0056
领导：谁再用 Redis 实现过期订单关闭，立马滚蛋

日前拜读阿牛老师的大作领导：谁再用定时任务实现关闭订单，立马滚蛋！发现其方案有若干瑕疵，特此抛砖引玉讨论一二。在电商、支付等领域，往往会有这样的场景，用户下单后放弃支付了，那这…

Python 2023年10月27日
0044
VMware虚拟机安装Linux教程(超详细)

一、安装 VMware 官方正版VMware下载（16 pro）：https://www.aliyundrive.com/s/wF66w8kW9ac下载Linux系统镜像（阿里云盘…

Python 2023年11月7日
0057
关于在django框架中在admin页面下添加自定义按钮并实现功能

关于如何在django中admin页面下添加自定义按钮并实现功能最近使用Django的admin页面开发了一个产品信息管理系统，由于需求的不断增加，需要在admin页面自定义一些…

Python 2023年8月5日
00100
aardio + PowerShell 可视化快速开发独立 EXE 桌面程序

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月9日
0083
01 Python数据可视化：时间序列可视化简明教程

; 一、效果相比网上能搜索到的一些讲解时间序列可视化的文章，结果更精美！！二、时间序列时间序列（或称动态数列）是指将同一统计指标的数值按其发生的时间先后顺序排列而成的数列。…

Python 2023年9月1日
0046
pytest

pytest有很多强大的插件，并且这些插件能够实现很多的操作； pytest-html 生成html格式的自动化测试报告 pytest-xdist 测试用例分布式执行，多cpu分发…

Python 2023年9月13日
0041
王心凌强烈推荐资料，导师总结的最全python核心知识点汇总笔记，260页最完整版。

python学习简单，但完全掌握还是会有许多重难点，本次收集了python从入门到精通的所有重难知识点详细梳理讲解，并附有多种思路与方法，配合案例可以更快速的让你掌握相关知识节点。…

Python 2023年9月15日
0054
动手学数据分析——task01

s1.1 载入数据 1 相对路径 相对路径:相对…

Python 2023年8月8日
0048
今日内容 web框架的建立流程 djiango框架简介和使用

*纯手写web框架 web框架可以简单的理解为是基于互联网的web服务端 >>>:socket服务端 1.socket服务端代码 2.HTTP协议 3.根据网址后…

Python 2023年6月12日
0069
redis持久化机制

踢一场足球需要很长的时间，那么就需要充足的体力来支撑。那么redis中的持久化机制是怎么样的？接下来就来聊一聊。每一个足球运动员的身体是真的强，为了胜利，在大草原上奔跑，那个路程我…

Python 2023年9月30日
0038
基于vite3+tauri模拟QQ登录切换窗体|Tauri自定义拖拽|最小/大/关闭

前两天有给大家分享tauri+vue3快速搭建项目、封装桌面端多开窗口。今天继续来分享tauri创建启动窗口、登录窗口切换到主窗口及自定义拖拽区域的一些知识。希望对想要学习或正在学…

Python 2023年10月17日
00195
scrapy创建过程

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月4日
0029
python数据分析03—Pandas

目录 1. Pandas的基本概念 1.1 Series方法： 1.2 DataFrame类似于二维数组，有行列之分 2.选择：从Series和DataFrame实例中选择部分数据…

Python 2023年8月19日
0074
在Django前台使用ckeditor富文本编辑器

1.首先安装CKEditor富文本编辑器 pip install django-ckeditor pip install pillow 第二行命令安装图形处理模块2.在settin…

Python 2023年8月4日
0044

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy爬虫框架

Scrapy架构

大家都在看