Scrapy爬虫框架结构及实例

2023年10月3日上午9:52 • Python • 阅读 37

Scrapy框架

Scrapy介绍

爬虫相关框架有很多，scrapy是目前python中使用最广泛的框架，主要是它的相关扩展组件很多，可配置和可扩展性非常高。
Scrapy是一个基于Twisted的异步处理框架，是纯python实现的爬虫框架，使用它我们只需定制开发几个模块就可以轻松实现一个爬虫。

Scrapy框架组件，数据流及项目结构介绍

1.组件

Engine: 引擎，处理整个系统的数据流处理，触发事务，是整个框架的核心。
item: 项目，它定义了爬取结果的数据结构，爬取的数据会被赋值成该item对象。
Scheduler: 调度器，介绍引擎发过来的请求并将其加入队列中，在引擎再次请求的时候将请求提供个引擎。
Downloader: 下载器，下载网页内容，并将网页内容返回给蜘蛛。
Spiders: 蜘蛛，其内定义了爬取的逻辑和网页的解析规则，它主要负责解析响应并生成提取结果和新的请求。
Item Pipeline: 项目管道，负责处理由蜘蛛从网页中抽取的项目，它的主要任务是清洗，验证和存储数据。
Downloader Middlewares.下载器中间件，位于引擎和下载器之间的钩子框架，主要处理引擎与下载器之间的请求及响应。
Spider Middlewares: 蜘蛛中间件，位于引擎和蜘蛛之间的钩子框架，主要处理想蜘蛛输入的响应和输出的结果及新的请求。

2.数据流

Engine 首先打开一个网站，找到处理该网站的Spider,并向该Spider请求第一个要爬取的URL.
Engine 从Spider获取到第一个要爬取的URL,并通过Scheduler以Request的形式调度。
Engine 向Scheduler请求下一个要爬取的URL。
Scheduler返回下一个要爬取的URL给Engine,Engine将URL通过Downloader Middlewares转发给Downloader下载。
一旦页面下载完毕，Downloader生成该页面的Response,并将其通过Downloader Middlewares发送给Engine.
Engine从下载器中接受到Response,并将其通过Spider Middlewares发送给Spider处理。
Spider处理Response,并返回提取到的Item及新的Request给Engine.
Engine将Spider返回的Item给Item Pipeline,将新的Request给Scheduler.
重复(2)步到第(8)步，知道Scheduler中没有更多的Request,Engine关闭该网站，爬取结束。

通过这些组件之间的协作和对异步处理的支持，Scrapy最大限度地利用了网络带宽，很大程度上提高了数据获取的效率。

3.项目结构
scrapy与其他框架不同之处在于，它是通过命令行来创建项目，创建完之后可以用IDE打开项目编写代码。创建项目代码及结构展示：

整体项目结构

各个文件的更能描述：

Scrapy.cfg: 它是Scrapy项目的配置文件，定义了项目的配置文件路径，部署相关信息等内容。
items.py: 它定义Item数据结构，所有的Item的定义都可以放在这里。(类似于Java中的Beam)
pipelines.py: 它定义Item Pipeline的实现，所有的Item Pipeline的实现都在这里。
settings.py: 它定义项目的全局配置。
middlewares.py: 它定义Spider Middlewares 和 Downloader Middlewares的实现。
spiders: 其内包含一个个Spider的实现，每个Spider都有一个文件。

这是Scrapy框架的基本架构，数据流及项目结构。

; 爬取天堂图片网实例：

创建项目：

生成项目:

需要进入刚刚创建的项目目录下。

通过IDE打开项目编写代码：

在爬之前先想好你需要什么，然后在item中定义相关变量。

这一步最关键，写出爬取网站的逻辑，爬取的相关函数可以查看Scrapy的相关文档。同样也可以用BeautifulSoup或正则都可以。

在Settings.py中设置一些反爬配置，比如Robots协议，cookies,User-Agent,让服务器认为你是正常访问的，而不是爬虫。

最后在命令行中输入运行命令：
53, 3851)}
2021-06-06 19:37:16 [scrapy.core.engine] INFO: Spider closed (shutdown)

C:\Users\24847\crawlpicture>scrapy crawl ivsky

得到了相关图片信息：
2021-06-06 19:37:16 [scrapy.core.scraper] DEBUG: Scraped from

还有一些获取后直接存入文件的命令：
例：
C:\Users\24847\crawlpicture>scrapy crawl ivsky -o ivsky.csv

将相关数据存入csv文件中。

总结：

介绍了Scrapy框架相关理论和实例，Scrapy有很多组件，可以看到该实例写很少的代码就可以爬取相关数据。并且不同于requests,Scrapy已经为我们整理好了架构，我们只需关注需要什么数据和编写逻辑就好了。

Original: https://blog.csdn.net/TechnologyShare/article/details/117636404
Author: TechnologyShare
Title: Scrapy爬虫框架结构及实例

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790157/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

大数据毕设选题 – 深度学习火焰识别检测系统（python YOLO）

文章目录 0 前言 1 基于YOLO的火焰检测与识别 2 课题背景 3 卷积神经网络 * 3.1 卷积层 3.2 池化层 3.3 激活函数： 3.4 全连接层 3.5 使用tens…

Python 2023年8月2日
0077
Java学习笔记

7/28日已更新，错误已修改~~~有错误的地方，欢迎大家留言！目录一、Java基础篇 1.接口和抽象类的区别 2.重载和重写的区别 3.==和equals的区别 4.异常处理机…

Python 2023年11月8日
0030
RocketMQ部署

RocketMQ部署手册单MasterRocketMQ集群系统要求与准备条件 64位操作系统，推荐 Linux/Unix/macOS 64位 JDK 1.8+ 下载安装Apac…

Python 2023年10月22日
0043
痞子衡嵌入式：浅谈i.MXRT10xx系列MCU外接24MHz晶振的作用

大家好，我是痞子衡，是正经搞技术的痞子。今天痞子衡给大家介绍的是 i.MXRT10xx系列MCU外接24MHz晶振的作用。痞子衡之前写过一篇关于时钟引脚的文章《i.MXRT1x…

Python 2023年10月20日
0042
utils系列:gunicorn flask 启动多进程；杀gunicorn 进程

一、gunicorn flask 一个简单的flask demo： #main.py from flask import Flask app = Flask(__name__) @…

Python 2023年8月12日
0040
用Python制作简单的小游戏

朋友们大家好，相信大部分人都喜欢玩游戏，无论是在工作间隙还是下班回家的路上，可能都会拿起手机玩游戏打发时间，亦或是在游戏中寻找乐趣，放松自己。上我跟大家分享的内容主要是用Pyth…

Python 2023年9月17日
0038
PostgreSQL执行计划：Bitmap scan VS index only scan

之前了解过postgresql的Bitmap scan，只是粗略地了解到是通过标记数据页面来实现数据检索的，执行计划中的的Bitmap scan一些细节并不十分清楚。这里借助一个执…

Python 2023年6月12日
0064
python中read excel_Python 中pandas.read_excel详细介绍

Python 中pandas.read_excel详细介绍 #coding:utf-8 import pandas as pd import numpy as np fileful…

Python 2023年8月9日
0026
pandas数据分析之排序和排名(sort和rank)

对数据集进行排序和排名的是常用最基础的数据分析手段，pandas提供了方便的排序和排名的方法，通过简单的语句和参数就可以实现常用的排序和排名。本文以student数据集的Data…

Python 2023年8月2日
0044
conda安装Tensorflow2.9的GPU版本

conda安装Tensorflow2.9的GPU版本 1、新建环境 2、激活环境 3、cuda与cudnn的版本选择 4、安装tensorflow2.9-gpu 5、验证是否安装成…

Python 2023年9月7日
0032
python图例重复显示_Matplotlib有重复的图例项

我在用pylab.图()在for循环中，并且由于某种原因，图例有6个条目，即使for循环只执行了3次#Plot maximum confidence pylab.figure() …

Python 2023年9月6日
0053
Python优雅的日志——loguru

loguru RECOMMENDATION 影视loguru 据小提莫观察，在python的使用者中，善于聪明”偷懒”以及不重复造轮子已经成为大家的共识，正…

Python 2023年9月12日
0072
20202127 实验二《Python程序设计》实验报告

20202127 2021-2022-2 《Python程序设计》实验二报告课程：《Python程序设计》班级： 2021姓名：马艺洲学号：20202127实验教师：王志强实验…

Python 2023年6月10日
0066
Pycharm生成.exe文件

1>打开Pycharm，点击Terminal终端，在终端输入命令： pip install pyinstaller，等待安装完成 2>使用pyinstall生成.exe…

Python 2023年8月1日
0061
字典的创建方式

1.dict = { ‘F’ : ’70’, ‘i’ : ’50’, ‘…

Python 2023年10月31日
0043
可变形卷积（DCN）

可变形卷积即DCN（缩写取自Deformable ConvNets）提出于ICCV 2017的paper: Deformable Convolutional Networks 论文…

Python 2023年11月7日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Scrapy爬虫框架结构及实例

Scrapy框架

Scrapy介绍

Scrapy框架组件，数据流及项目结构介绍

; 爬取天堂图片网实例：

总结：

大家都在看