此系列内容为 自己学习、整理内容, 分享知识并供自己日后回顾。如果你能够看到内容有误,欢迎指正。如果你有疑问,欢迎提出,一起探讨,一起进步。👏👏👏👏👏
1.Scrapy定义
Scrapy 是一个纯 Python 实现的、流行的网络爬虫框架,它使用了一些高级功能来简化网页的爬取,能让我们的爬虫更加地规范、高效。
2.Scrapy内容
Scrapy内容 Scrapy EngineScrapy 引擎,负责控制整个系统地数据流和事件地触发Scheduler调度器,接受 Scrapy 引擎发来的请求并将其夹取队列中,等待引擎后续需要时使用Downloader下载器,爬取网页内容,将爬取道德数据返回给 Spiders (爬虫)Spider爬虫,这部分是核心代码,用于解析、提取出需要地数据Item Pipeline数据管道,处理提取出的数据,主要是数据清洗、验证和数据存储Downloader middlewares下载器中间件,处理 Scrapy 引擎和下载器之间的请求和响应Spider middlewares爬虫中间件,处理爬虫输入的响应以及输出结果或新的请求
3.Scrapy数据流过程
Scarpy数据流过程 1Scrapy 引擎打开一个网站,找到处理该网站对应的爬虫,并爬取网页的第一个页面2Scarpy 引擎从爬虫中获取第一个网页地址,并将其作为请求放进调度器中进行调度3Scrapy 引擎从调度器中获取下一个网页的地址4调度器返回下一个网页的地址给 Scrapy 引擎,Scrapy 引擎通过下载器中间件传递给下载器进行爬取5
爬取到数据后,下载器通过下载器中间件回传给 Scrapy 引擎
6Scrapy 引擎将爬取到数据通过爬虫中间件传递给爬虫进行数据解析、提取7爬虫处理完数据后,将提取的数据和新得请求回传给 Scrapy 引擎8Scrapy 将提取出的数据传给数据管道进行数据清晰等操作,同时将新得请求传递给调度器准备进行下一页的爬取9重复 2-8 步,直到调度器中没有新的请求,数据爬取结束
4.安装 Scrapy
打开命令行,执行下列语句就可以在自己电脑中安装 Scrapy :
pip install scrapy -i https://pypi.doubanio.com/simple/
这句话后面 -i https://pypi.doubanio.com/simple/ 表示使用豆瓣的源,这样安装会更快
安装完成后在命令行里输入 scarpy+回车,看到类似下列的输出内容就表示 安装成功了。
Scrapy 2.5.1 - no active project
Usage:
scrapy [options] [args]
Available commands:
bench Run quick benchmark test
commands
fetch Fetch a URL using the Scrapy downloader
genspider Generate new spider using pre-defined templates
runspider Run a self-contained spider (without creating a project)
settings Get settings values
shell Interactive scraping console
startproject Create new project
version Print Scrapy version
view Open URL in browser, as seen by Scrapy
[ more ] More commands available when run from project directory
Use "scrapy -h" to see more info about a command
Original: https://blog.csdn.net/m0_52162042/article/details/121309826
Author: 小浪宝宝
Title: Python——爬虫(Scrapy框架定义、内容、数据流流程、安装)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/788954/
转载文章受原作者版权保护。转载请注明原作者出处!