Scrapy框架（4）：工作流程以及数据流通

2023年10月4日上午12:54 • Python • 阅读 69

Scrapy框架（4）：工作流程以及数据流通

一、Scrapy核心组件介绍
*
1、Scrapy Engine引擎
2、Scheduler调度器
3、Downloader下载器
4、Spider爬虫
5、Pipeline管道
二、Scrapy框架工作流程
三、实操
*
1、zip将同一篇文章的数据聚集在一起
2、items.py中声明流通字段
3、赋值
4、settings.py中开启ITEM_PIPELINES
5、检查数据是否进入

一、Scrapy核心组件介绍

1、Scrapy Engine引擎

框架核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，数据传递，触发事务

2、Scheduler调度器

可以简单想象成一个url队列（但实际为request对象）

3、Downloader下载器

下载网页内容，并返回给Spider

4、Spider爬虫

是爬虫逻辑所在的模块，用于从特定的网页中获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler

5、Pipeline管道

处理爬虫从网页中抽取的数据

二、Scrapy框架工作流程

①Spiders的yeild将request发送给Scrapy Engine（spider–>start_urls）
②Scrapy Engine对request不会做任何处理只是将request传递给Scheduler
③Scheduler按优先级顺序生成request交给Scrapy Engine
④Scrapy Engine接收到request后，通过Downloader Middlewares（下载中间件）过滤处理后传递给Downloader
⑤Downloader下载到response数据后，又经过Downloader Middlewares（下载中间件）处理后传递给Scrapy Engine
⑥Scrapy Engine接收到response后，传递给Spiders，Spiders通过def parse()解析数据
⑦将解析的items和url发送给Scrapy Engine
⑧Scrapy Engine将items发送给pipeline，将url（request）发送给Scheduler进行递归操作

; 三、实操

1、zip将同一篇文章的数据聚集在一起

使用zip函数将同一篇文章的作者、发布时间、网址、评论点赞浏览数要对应起来，命名为article_infos（之前的代码：scrapy框架（3）：CSS选择器解析数据）

article_infos=zip(title,url,name,time,thumbsup,comments,views)

将断点打在Spider的pass上，调试打印第一条数据查看是否有误（注意：运行的是main.py入口文件scrapy框架（2）：入口文件）

; 2、items.py中声明流通字段

每一篇文章是通过元组封装的，元组的特点是不可变。要把每一篇文章的数据封装成一个item对象在框架中流通，要在items.py中声明要流通的字段：title和name

title=scrapy.Field()
name=scrapy.Field()

3、赋值

在Spider中声明item对象(小驼峰)，并将每一篇文章的标题和作者赋值给item对象


csdnspiderProjectItem = CsdnspiderProjectItem()


csdnspiderProjectItem['title']=article_info[0]
csdnspiderProjectItem['name']=article_info[2]

运行打印出所有数据

4、settings.py中开启ITEM_PIPELINES

要在Scrapy中流通，当然首先需要在settings.py中将ITEM_PIPELINES打开

; 5、检查数据是否进入

需要将数据从spider中yield出来，传到piplines.py。断点打在pipelines.py的return item上，调试查看数据是否进入。

yield csdnspiderProjectItem

可以看到我们是成功取到了数据，下一步需要考虑的是如何将数据存入数据库。

Original: https://blog.csdn.net/Yeexxxx/article/details/117432677
Author: Yeexxxx
Title: Scrapy框架（4）：工作流程以及数据流通

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790652/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python教程：一个 list 使用 for 遍历，边循环边删除的问题

今天由于要对一个 list 数据类型写一个循环删除的程序（这是小编第一次对于 list 操作），但发现一个奇异问题，来，我们来看看代码跟效果：初始化一个 list 列表，为了下边…

Python 2023年5月23日
0083
opencv笔记

python中的sum函数.sum(axis=1) 当axis=0，就是将一个矩阵的每一列向量相加当axis=1，就是将一个矩阵的每一行向量相加例如： import numpy…

Python 2023年8月28日
0068
django 数据库mysql学习向数据库表中添加数据

环境：windows ，已经安装了 mysql, 安装了django 1、新建一个django 项目 2、新建一个子应用 python manage.py startapp moe…

Python 2023年8月4日
0060
【机器学习】李宏毅——自监督式学习

1、BERT简介首先需要介绍什么是自监督学习。我们知道监督学习是有明确的样本和对应的标签，将样本丢进去模型训练并且将训练结果将标签进行比较来修正模型，如下图：而自监督学习就是 …

Python 2023年10月28日
0043
python之selenium调用xpath实现网页操作

python selenium调用xpath实现浏览器操作源码过程中遇到的主要问题主要涉及的技术处理存在疑问：源码 #coding=utf-8 #program:供本司运…

Python 2023年11月2日
0035
AgileBoot – 如何集成内置数据库H2和内置Redis

本项目地址: github:https://github.com/valarchie/AgileBoot-Back-End gitee:https://gitee.com/vala…

Python 2023年10月17日
0067
python—数据分析(二)

Series和DataFrame中数据的基本功能： reindex方法是创建一个新对象，其数据对Series和DataFrame的新索引，它们的主要区别在DataFrame可以对i…

Python 2023年8月8日
0072
Python中关键字global与nonlocal的区别

若在函数作用域中需要修改全局作用域或外层嵌套作用域中的变量，则需要使用global和nonlocal关键字。接下来，分别对关键字global和nonlocal的作用进行介绍。 1….

Python 2023年8月24日
0053
conda常用指令

1、创建虚拟环境并指定python版本和某些包——conda create -n name python=3.6 pytorch=1.1.02、激活（进入、使用）某个已经创建好的环…

Python 2023年9月9日
0046
python（七）数据分析之pandas

目录一、功能定位 * 1、什么是pandas? 2、pandas用来作什么？二、数据结构 * 1、dataframe 2、索引操作 – 2.1 Series索引 2…

Python 2023年8月17日
0066
吃透Chisel语言.39.Chisel实战之单周期RISC-V处理器实现（一）——需求分析和初步设计

Chisel实战之单周期RISC-V处理器实现（上）——需求分析和初步设计需求分析首先明确我们要做的是什么，这个在标题里面已经说明了，我们要做的是一个单周期RISC-V处理器…

Python 2023年9月17日
0058
【Flask+Echarts】使用Flask框架可视化的案例

回答1：和MySQL来实现数据，可以通过步骤来实现： 1. 来搭建Web应用程序，根据需要设置路由和视图函数。 2. MySQL数据库来存储数据，建立需要的数据表，并通过的…

Python 2023年8月9日
0062
【20211123】【Python】dataframe 修改行名、列名的方法

一、通过 pandas.DataFrame的属性值 index、columns 修改 1. 语法 df.index = []df.columns = [] 2. 举个栗子 imp…

Python 2023年8月16日
0086
这些编程语言你需要了解一下

2022 年最受欢迎的语言 1、Python Python 位居 2022 年最受欢迎的语言榜首，并且鉴于多种原因成为最适合学习的编程语言之一。Python 是一种通用的服务器端编…

Python 2023年8月1日
0034
python股票价格涨跌幅_案例_如何计算股票复权价格

《邢不行-2019新版|Python股票量化投资课程》 author：邢不行微信：xingbuxing0807 本节课讲解如何根据预测者网的历史数据，计算复权价格 import …

Python 2023年8月8日
0073
Python前后端交互（ Flask & Ajax ）

本文是自己学习Python前后端交互记录使用，之前没有学习过Python任何框架，前端也是简单学了一下，如哪里有问题，还望大家批评改正。前端 1.1 HTML布局这个就不用说啥…

Python 2023年8月9日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy框架（4）：工作流程以及数据流通

Scrapy框架（4）：工作流程以及数据流通

一、Scrapy核心组件介绍

1、Scrapy Engine引擎

2、Scheduler调度器

3、Downloader下载器

4、Spider爬虫

5、Pipeline管道

二、Scrapy框架工作流程

; 三、实操

1、zip将同一篇文章的数据聚集在一起

; 2、items.py中声明流通字段

3、赋值

4、settings.py中开启ITEM_PIPELINES

; 5、检查数据是否进入

大家都在看