Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

2023年10月1日下午7:02 • Python • 阅读 43

此系列内容为自己学习、整理内容， 分享知识并供自己日后回顾。如果你能够看到内容有误，欢迎指正。如果你有疑问，欢迎提出，一起探讨，一起进步。👏👏👏👏👏

1.Scrapy定义

Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架，它使用了一些高级功能来简化网页的爬取，能让我们的爬虫更加地规范、高效。

2.Scrapy内容

Scrapy内容 Scrapy EngineScrapy 引擎，负责控制整个系统地数据流和事件地触发Scheduler调度器，接受 Scrapy 引擎发来的请求并将其夹取队列中，等待引擎后续需要时使用Downloader下载器，爬取网页内容，将爬取道德数据返回给 Spiders （爬虫）Spider爬虫，这部分是核心代码，用于解析、提取出需要地数据Item Pipeline数据管道，处理提取出的数据，主要是数据清洗、验证和数据存储Downloader middlewares下载器中间件，处理 Scrapy 引擎和下载器之间的请求和响应Spider middlewares爬虫中间件，处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程

Scarpy数据流过程 1Scrapy 引擎打开一个网站，找到处理该网站对应的爬虫，并爬取网页的第一个页面2Scarpy 引擎从爬虫中获取第一个网页地址，并将其作为请求放进调度器中进行调度3Scrapy 引擎从调度器中获取下一个网页的地址4调度器返回下一个网页的地址给 Scrapy 引擎，Scrapy 引擎通过下载器中间件传递给下载器进行爬取5

爬取到数据后，下载器通过下载器中间件回传给 Scrapy 引擎

6Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取7爬虫处理完数据后，将提取的数据和新得请求回传给 Scrapy 引擎8Scrapy 将提取出的数据传给数据管道进行数据清晰等操作，同时将新得请求传递给调度器准备进行下一页的爬取9重复 2-8 步，直到调度器中没有新的请求，数据爬取结束

4.安装 Scrapy

打开命令行，执行下列语句就可以在自己电脑中安装 Scrapy ：

pip install scrapy -i https://pypi.doubanio.com/simple/
这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源，这样安装会更快

安装完成后在命令行里输入 scarpy+回车，看到类似下列的输出内容就表示 安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy  [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

Original: https://blog.csdn.net/m0_52162042/article/details/121309826
Author: 小浪宝宝
Title: Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788954/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

jenkins流水线部署springboot应用到k8s集群（k3s+jenkins+gitee+maven+docker）（1）

环境介绍：192.168.231.132 单主机独立节点，装k3s用的mysql，nginx等，装有Docker 192.168.231.133 k3s master node节点…

Python 2023年10月22日
0051
Python Flask交互基础(GET、 POST 、PUT、 DELETE)

目录 * – + 前言 + 第一个flask程序 + GET + * – 1.GET_传参1 – 2.GET_传参2 + POST + * &#…

Python 2023年8月12日
0047
【Python秒杀脚本】淘宝或京东等秒杀抢购

文章目录前言一、环境二、安装 * 1.ChromeDriver安装 2.Seleuinm安装 3.淘宝秒杀脚本 4.京东秒杀脚本总结前言我们的目标是秒杀淘宝或京东等的订…

Python 2023年7月31日
0087
python之scrapy爬虫1

前言 python爬虫基本指令要点以下的两个图片的流程一致 ; 实操内容：安装scrapy(pip install scrapy) 对于安装scrapy插件。需要使用命令多安装…

Python 2023年10月4日
0036
#yyds干货盘点#range() 函数

内置函数 range() 常用于遍历数字序列，该函数可以生成算术级数：生成的序列不包含给定的终止数值； &#x20…

Python 2023年5月24日
0078
Matplotlib

Matplotlib 一、matplotlib的三层结构二、简单图形绘制三、辅助显示层 * 1.显示刻度 2.添加网格 3.添加描述信息 4.显示图例四、图像层（常见图像） …

Python 2023年9月3日
0070
手把手教你使用LabVIEW OpenCV dnn实现物体识别（Object Detection）含源码

今天和大家一起分享如何使用LabVIEW调用pb模型实现物体识别，本博客中使用的智能工具包可到主页置顶博客 1、物体识别的概念物体识别也称目标检测，目标检测所要解决的问题是目标…

Python 2023年10月29日
0026
pandas

import pandas as pd import numpy as np import re s1 = np.random.normal(0,1,(10,5)) s1 arra…

Python 2023年8月8日
0037
python数据分析与展示–matplotlib基本绘制函数

一.pyplot基本图标函数概述以下是对pyplot一些基本绘图函数的介绍，内容较多，故分多表介绍： pyplot的基本图标函数1 函数说明plt.plot(x,y,fmt,&#…

Python 2023年8月30日
0047
Python代码 Base64 格式图片上传，Base64格式理解

一、Base64编码介绍 OCR识别等，客户端可以直接传输base64格式的数据简单来说就是把一张图片数据加密成一串字符，使用该字符串代替图像地址。 Base64编码：请求的图片…

Python 2023年8月13日
00113
python数据可视化之flask+echarts（一）

以下是一篇通俗易懂的文章摘录，方便大家连接后端。 [En] Here is an excerpt of an easy-to-understand article to facil…

Python 2023年5月24日
0062
EasyPoi大数据导入导出百万级实例

EasyPoi介绍: 利用注解的方式简化了Excel、Word、PDF等格式的导入导出，而且是百万级数据的导入导出。EasyPoi官方网址：EasyPoi教程_V1.0 (mydo…

Python 2023年10月16日
00147
Pytest之skip、skipif、xfail

在上一篇Pytest系列文章：Pytest之fixture，主要介绍fixture的介绍、调用方式及作用域。以下主要介绍pytest中 skip、 skipif、 xfail的用…

Python 2023年9月13日
0047
Spring Boot(五十五)：基于redis防止接口恶意刷新和暴力请求

您好！感谢您的提问。根据您描述的情况，似乎是在使用 Starter Data 时遇到了依赖解析问题。首先，请确保您的项目中已经正确添加了的依赖。在您的项目的 pom.xml 文…

Python 2023年11月8日
0043
科学计算库 —— Pandas之DataFrame

Pandas之DataFrame 1 DataFrame介绍 2 创建DataFrame 3 常用属性 4 访问数据 5 处理重复数据 6 删除数据 7 添加数据 8 修改数据 9…

Python 2023年8月17日
0053
Backtrader量化&回测2——在策略中读取Pandas数据，添加更多自定义数据列到策略中

使用Backtrader的内置类 backtrader.feeds.PandasData读取dataframe数据后，会按照列名称，将已有的数据列名映射到 backtrader的P…

Python 2023年8月17日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

1.Scrapy定义

2.Scrapy内容

3.Scrapy数据流过程

4.安装 Scrapy

大家都在看