Scrapy爬虫流程

2023年7月18日上午5:22 • 人工智能 • 阅读 67

参考：Scrapy框架实战（一）：Scrapy基础知识_Amo Xiang的博客-CSDN博客_scrapy框架

主要流程

1. 创建项目

scrapy project xxx

2. 制作spider

scrapy genspider xxx "http://www.xxx.com"

3. 编写Item.py

明确需要提取的数据。

4. 编写爬虫文件

spiders/xxx.py，处理请求和响应，以及提取数据(yield item)。

5. 编写管道文件

pipelines.py，处理spider返回的item数据，比如本地持久化存储等。

6. 编写settings.py

启动管道组件 ITEM_PIPELINES={}，以及其他相关设置。

7. 执行爬虫

scarpy crawl xxx

8. 整体框架

Scrapy爬虫流程

组件简介

2.1 Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。

2.2 Scheduler

从引擎接收request并将它们入队列，以便之后引擎请求它们时提供给引擎。

2.3 Downloader

负责获取页面数据并提供给引擎，而后提供给spider。

2.4 Spider

用户编写的用于分析response并提取item或额外跟进的URL的类，每个spider负责处理一个特定(或一些)网站。

2.5 Item pipeline

负责处理被spider提取出来的item，典型的处理有清理、验证及持久化(数据库存储)。

2.6 Downloader middlewares

是在引擎与下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便机制，通过插入自定义代码来扩展scrapy功能。

Original: https://blog.csdn.net/MusicDancing/article/details/122194781
Author: MusicDancing
Title: Scrapy爬虫流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700184/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytorch简单神经网络搭建和训练实例

文章目录 1. 背景 2. 数据格式转换 3. 网络搭建 4. 模型训练 5. 预测 6. 总结背景使用pytorch的框架搭建一个简单多分类神经网络模型，解决水果分类问题。本…

人工智能 2023年7月22日
0048
机器学习：K-means算法基本原理及其变种

目录 1.1、K-means起源 1.2、K-means的意义 1.3、K-means的思想 1.4、K-means的算法流程 1.5、K-means的算法优缺点 2.1、轮廓系数…

人工智能 2023年5月31日
0069
MXNet是否支持模型剪枝和压缩

人工智能 2024年1月1日
0019
论文复现——CE-FPN: Enhancing Channel Information for Object Detection

最近想自己对FPN结构进行一些改进，读了不少有关FPN的论文，有些论文开源了，但是有些最新的论文没有开源，后面打算把最近复现的论文都总结一下，发个论文复现系列的文章。 &#…

人工智能 2023年6月24日
0060
ARM64开发板运行Tensorflow lite图片分类demo

TensorFlow Lite C++ image classification demo 编译环境：docker 编译参考：https://tensorflow.google.c…

人工智能 2023年7月2日
0070
【目标跟踪】Yolov5_DeepSort_Pytorch训练自己的数据

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

人工智能 2023年7月22日
0054
【python三维深度学习】python三维点云从基础到深度学习

点云法向量、质心、体素、三角面。含数据与python源码。旋转、平移、立体几何投影理论分析、投影变换、仿射变换、缩放等，特别是包含了基于法向量的点云旋转，可以将激光雷达地面点云…

人工智能 2023年6月16日
0088
tensorflow/keras使用GPU进行训练

原文 1 需要的环境配置 Anaconda环境，Anaconda安装教程 CUDA，CUDA下载，这里需要注意CUDA、cuDNN、tensorflow的对应版本，对应版本查询 c…

人工智能 2023年5月23日
0053
肘方法和silhouette 系数定聚类个数

无监督学习中存在一个问题，就是我们并不知道问题的确切答案。由于没有数据集样本类标的确切数据，我们无法在无监督学习中使用评估监督学习模型性能的相关技术。因此，为了对聚类效果进行定量…

人工智能 2023年5月31日
0068
回声消除 2

08｜回声消除算法实践前面介绍了回波抵消算法的基本原理。众所周知，回声消除会受到很多因素的影响，如声学环境、采集和回放设备等。因此，如何实现一种稳健高效的回波抵消算法是一个挑战。…

人工智能 2023年5月27日
0097
(二十四) opencv中mat矩阵相乘

1、点乘–A*B AB是以数学运算中矩阵相乘的方式实现的，即Mat矩阵A和B被当做纯粹的矩阵做乘法运算，要求A的列数等于B的行数时，才能定义两个矩阵相乘。如A时mn矩阵…

人工智能 2023年5月28日
0065
【论文写作】闵帆老师论文写作课程心得体会30篇

我的博客一直记录代码，还是第一次记录心得体会。谢谢我闵帆老师。此次博客记录了我在这学期上闵帆老师《论文写作》后的一些心得体会。在这节课上，我学习了写论文的注意事项、写论文所用的工具…

人工智能 2023年7月31日
0044
[附源码]计算机毕业设计JAVAjsp远程学习系统

[附源码]计算机毕业设计JAVAjsp远程学习系统项目运行环境配置： Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX （Webstorm也行）+ …

人工智能 2023年6月27日
0049
Encoder-Decoder 模型架构详解

文章目录概述 Seq2Seq（ Sequence-to-sequence ） Encoder-Decoder的缺陷 Attention 机制的引入 Transformer中的En…

人工智能 2023年5月31日
0079
Opencv中的cv2.calcHist()函数的作用及返回值

在讨论其返回值前，我们先来介绍以下calcHist()函数的用法： cv2.calcHist()函数 cv2.calcHist()函数的作用：通过直方图可以很好的对整幅图像的灰度分…

人工智能 2023年6月23日
0075
第二个TensorFlow环境安装过程

激活tensflow的tfenv环境： activate tfenv_py35 退出环境：deactivate tfenv_py36 在tfenv环境中正式安装tensorflow…

人工智能 2023年5月24日
0048

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球