scrapy面试个人总结问题

简单爬虫:
使用Python内置的urlib 库 获取网页的Html信息
用的方法的 request
使用Request可以添加请求头参数,模拟浏览器发送请求

scrapy爬虫:
爬虫原理
1)Scrapy Engine引擎
负责控制数据流在系统组件的流动,当特定动作发生时触发事件
2)Scheduler调度器
从引擎中接收request并且将他们入队
3)Downloader下载器
负责获取页面数据并且提供给引擎,之后提供给spider
4)Spiders爬虫
它是Scrapy用户编写用于分析response并且获取item或者额外的数据
5)ItemPiPeline管道
负责将Spider爬虫提取出来的数据进行持久化保存
6)Downloader Middleware下载器中间件
是引擎和下载器之间特定组件,拥有㔘Downloader传递给引擎response
7)Spider Middleware Spider中间件
处理spider输入response与输出items和requests

爬虫流程:
首先 加入浏览器代理配置、数据库配置、数据传输配置,
配置 pipelines.py 让数据实现持久化存储,
编写爬虫文件,
配置下载相关数据管道,
过程中可以对数据进行去重处理。
使用异步方式把数据存入数据库/ /使用pymysql库把数据存入数据库,/

浏览器爬虫原理:
首先

Original: https://blog.csdn.net/az123qq_/article/details/124875514
Author: 阿泽Az
Title: scrapy面试个人总结问题

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/789027/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球