Scrapy爬虫流程

2023年7月18日上午5:22 • 人工智能 • 阅读 87

参考：Scrapy框架实战（一）：Scrapy基础知识_Amo Xiang的博客-CSDN博客_scrapy框架

主要流程

1. 创建项目

scrapy project xxx

2. 制作spider

scrapy genspider xxx "http://www.xxx.com"

3. 编写Item.py

明确需要提取的数据。

4. 编写爬虫文件

spiders/xxx.py，处理请求和响应，以及提取数据(yield item)。

5. 编写管道文件

pipelines.py，处理spider返回的item数据，比如本地持久化存储等。

6. 编写settings.py

启动管道组件 ITEM_PIPELINES={}，以及其他相关设置。

7. 执行爬虫

scarpy crawl xxx

8. 整体框架

Scrapy爬虫流程

组件简介

2.1 Scrapy Engine

引擎负责控制数据流在系统中所有组件中流动，并在相应动作发生时触发事件。

2.2 Scheduler

从引擎接收request并将它们入队列，以便之后引擎请求它们时提供给引擎。

2.3 Downloader

负责获取页面数据并提供给引擎，而后提供给spider。

2.4 Spider

用户编写的用于分析response并提取item或额外跟进的URL的类，每个spider负责处理一个特定(或一些)网站。

2.5 Item pipeline

负责处理被spider提取出来的item，典型的处理有清理、验证及持久化(数据库存储)。

2.6 Downloader middlewares

是在引擎与下载器之间的特定钩子(specific hook)，处理Downloader传递给引擎的response。其提供了一个简便机制，通过插入自定义代码来扩展scrapy功能。

Original: https://blog.csdn.net/MusicDancing/article/details/122194781
Author: MusicDancing
Title: Scrapy爬虫流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/700184/

转载文章受原作者版权保护。转载请注明原作者出处！

赞 (0)

0

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

TensorFlow2.8.0代码分析之例子MultiBox Object Detection中main函数

该工具通过在计算机上运行音频识别模型，对连续不断的采样流，创建准确度统计信息。这是一个新的模型运行环境设置以，了解它们在实际应用中的效果。你需要为它提供一个包含你想要识别的声音…

人工智能 2023年7月10日
0078
【计算机视觉】基于Python—OpenCV的手势识别详解（一）

文章目录更新日记前言前期准备识别手部模型识别视频输入方法手势识别方法完整代码结语更新日记更新日记：2022.04.18：应各位网友需求，已mp库更新后的手部识别…

人工智能 2023年6月16日
0078
深度学习的超参数调整

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月15日
0068
PyTorch中如何查看神经网络模型的参数（两种高效的方法，简单上手）

文章目录 1 用for循环打印parameters 2 安装依赖：torchsummary * 2.1 如果是单输入，比如CNN 模型 – 2.1.1 代码1 2.1….

人工智能 2023年7月21日
0075
机器学习之手写字体（digits）识别——利用sklearn实现

机器学习之手写字体（digits）识别——利用sklearn实现文章目录机器学习之手写字体（digits）识别——利用sklearn实现 1实验目的 2实验过程 * 2.1 查…

人工智能 2023年7月4日
0097
Python正则表达式(一看就懂)

目录哈喽O(∩_∩)O😄 什么是正则表达式(⊙_⊙) 简单说，正则表达式是… 正则表达式怎么用❓ sreach的用法🍊 匹配连续的多个数值🍉 字符”+&#…

人工智能 2023年7月3日
00102
python3.8+pytorch 1.7.0+cuda10.2+cuDNN

本文是在电脑中直接安装cuda10.2的过程，如果是要在anaconda环境中安装的话，可以直接只在虚拟环境中使用命令进行安装，用以下链接中的过程即可。安装过程中看到的不错的教程…

人工智能 2023年7月22日
0064
【python代码实现】人工神经网络分类算法及其实战案例（股票价格波动分析）

目录前置知识 * 1、前言 2、人工神经网络模型 – 2.1、神经元模型与单层神经网络 2.2、多层人工神经网络模型人工神经网络分类算法 * 1、构建数据集 2、响…

人工智能 2023年6月30日
00108
[ML]（回归和分类）

文章目录误差从哪来？ * Error的来源估测 – 估测变量x的偏差和方差为什么会有很多的模型? 怎么判断？ – 偏差大-欠拟合方差大-过拟合模型…

人工智能 2023年6月17日
00102
新闻分析报告：ActiveDirectory证书服务是企业网络的一大安全盲点

Microsoft 的 Active Directory PKI 组件通常存在配置错误，允许攻击者获得账户和域级别的权限。作为 Windows 企业网络的核心，处理用户和计算机身…

人工智能 2023年7月23日
0074
AR (Autoregressive) and AE (Autoencoder)

AR语言模型(AutoRegressive LM)：只能获取单向信息，即只能前向读取信息并预测t位置的单词或者从后向读取信息并预测t位置的单词，却不能同时获取双向信息，代表例子是G…

人工智能 2023年5月28日
00129
自定义.py文件导入Module，报错ModuleNotFoundError: No module named最简单解决办法

流程 1.举个例子：已有程序（D:\python_module\hello.py）自己在同一个文件新建了一个say.py（D:\python_module\say.py）文件，运行…

人工智能 2023年7月5日
00142
Fama-Macbeth回归：EAP.fama_macbeth

Fama-Macbeth回归是实证资产定价中最为常用方法之一。它的主要用途是验证因子对资产收益率是否产生系统性影响。与投资组合分析不同的是，Fama-Macbeth回归可以在同时控…

人工智能 2023年6月17日
00100
条件随机场（CRF）的详细解释

条件随机场(CRF)由Lafferty等人于2001年提出，结合了最大熵模型和隐马尔可夫模型的特点，是一种无向图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。近年来在…

人工智能 2023年5月27日
0089
Transformer

1. 概述 transformer网络结构如下图所示：注意！！！！！！！！！！ transformer的输入是有两个的，一个在Encoder，一个在Decoder（机器翻译是这…

人工智能 2023年5月31日
0083
模拟打车的测试用例计划点

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月27日
0066

亲爱的 Coder【最近整理，可免费获取】👉 最新必读书单 | 👏 面试题下载 | 🌎 免费的AI知识星球