Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

此系列内容为 自己学习、整理内容, 分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。👏👏👏👏👏

1.Scrapy定义

2.Scrapy内容

3.Scrapy数据流过程

4.安装 Scrapy

1.Scrapy定义

Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。

2.Scrapy内容

Scrapy内容 Scrapy EngineScrapy 引擎,负责控制整个系统地数据流和事件地触发Scheduler调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用Downloader下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫)Spider爬虫,这部分是核心代码,用于解析、提取出需要地数据Item Pipeline数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储Downloader middlewares下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应Spider middlewares爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求

3.Scrapy数据流过程

Scarpy数据流过程 1Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面2Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度3Scrapy 引擎从调度器中获取下一个网页的地址4调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取5

爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎

6Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取7爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎8Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取9重复 2-8 步,直到调度器中没有新的请求,数据爬取结束

4.安装 Scrapy

打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy :

pip install scrapy -i https://pypi.doubanio.com/simple/
这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快

安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示 安装成功了。

Scrapy 2.5.1 - no active project

Usage:
  scrapy  [options] [args]

Available commands:
  bench         Run quick benchmark test
  commands
  fetch         Fetch a URL using the Scrapy downloader
  genspider     Generate new spider using pre-defined templates
  runspider     Run a self-contained spider (without creating a project)
  settings      Get settings values
  shell         Interactive scraping console
  startproject  Create new project
  version       Print Scrapy version
  view          Open URL in browser, as seen by Scrapy

  [ more ]      More commands available when run from project directory

Use "scrapy  -h" to see more info about a command

Original: https://blog.csdn.net/m0_52162042/article/details/121309826
Author: 小浪宝宝
Title: Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/788954/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球