Scrapy爬虫框架

2023年10月6日下午6:48 • Python • 阅读 51

一、scrapy安装

普通：cmd→pip install scrapy
anaconda：打开cmd窗口→输入命令conda install scrapy

二、框架解析

Engine （不需要用户修改）

控制所有模块间的数据流
根据条件触发事件

Scheduler（不需要用户修改）

对所有请求进行调度管理

Downloader（不需要用户修改）

根据请求下载网页

Downloader Milddleware中间键

目的：实施Engine、Scheduler、Downloader之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应

Spider（需要用户编写配置代码）

直接产生爬取请求
解析Downloader返回的响应，产生爬取项和额外的爬取请求

Spider Middleware

目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项

Item Pipelines（需要用户编写配置代码）

以流水线方式处理Spider产生的爬取项
(由一组操作顺序组成，类似流水线，每个操作是一个Item Pipelines类型)
可能操作包括：清理、检验、查重爬取项中的HTML数据，将数据存储到数据库中

; 三、Scrapy常用命令

命令格式：>Scrapy
一个工程：同一个Scrapy框架，可包含多个爬虫

命令说明格式startproject创建新工程scrapy startproject < name> [dir]genspider创建爬虫scrapy genspider [options] < name> < domain>settings获取爬虫配置信息scrapy settings [options]crawl运行爬虫scrapy crawl < spider>list列出工程中所有爬虫scrapy listshell启动url调试命令行scrapy shell [url]

四、requests库 VS Scrapy框架

相同点

都可以进行页面请求和爬取
可用性都好，文档丰富
都没处理js、提交表单、应对验证码等功能（可扩展）

不同点

requests库Scrapy框架页面爬虫：个别网页网站爬虫：批量网页功能库：由函数构成框架：部分函数不需用户定义和使用并发性不足，性能慢并发性好，性能高重点在页面下载重点在爬虫结构定制灵活一般定制灵活，深度定制困难

技术选择

requests库：小需求
Scrapy框架：大需求
（持续/周期性爬取网站信息，并积累信息形成自己的爬取库）
requests库优于 Scrapy框架：定制程度的需求很高，想搭建自己的爬取框架

五、示例

1、创建工程

cmd窗口→scrapy startproject 存储路径\工程名
生成的工程目录如下：
–1、文件名/：外层目录，即整个工程所在位置
–2、文件名/scrapy.cfg：部署scrapy爬虫的配置文件（将爬虫放在特定的服务器上，并且在服务器上配置好相应的操作接口）
–3、文件名/文件名/：scrapy框架下所有文件的目录
–4、文件名/文件名/_init_.py：初始化脚本（不需编写）
5、文件名/文件名/items.py：Items代码模块（不需编写）
6、文件名/文件名/middlewares.py：Middlewares代码模板（若扩展Middlewares功能，将工能写入此文件）
7、文件名/文件名/piplines.py：Piplines代码模板
–8、文件名/文件名/settings.py：Scrapy爬虫的配置文件（若优化爬虫功能，修改此文件中对应的配置项）
–9、文件名/文件名/spiders/：Spiders代码模块目录（存放此工程中建立的爬虫）
–文件名/文件名/spiders/_init_.py：初始文件，无需修改
文件名/文件名/spiders/_pycache_/：缓存目录，无需修改
目录如下图：

eg：建立工程：
scrapy startproject 桌面路径\python123demo

2、在工程中产生一个爬虫

cmd窗口→scrapy genspider 爬虫名网页域名
这步只是建立爬虫文件，修改后的爬虫代码如图：
eg：建立爬虫文件demo.py：

此时spiders目录下会出现demo.py文件

3、配置产生的爬虫

修改爬虫文件，进行相应爬取
编辑器→修改代码内容，如下图：

4、运行爬虫，获取网页

cmd窗口→scrap crawl 爬虫文件名
此时工程里面就会出现爬虫的html文件
eg：scrapy crawl demo.py

Original: https://blog.csdn.net/weixin_45052608/article/details/105067462
Author: Ayanha
Title: Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792768/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

FCN网络解析

1 FCN网络介绍 FCN（Fully Convolutional Networks，全卷积网络）用于图像语义分割，它是首个端对端的针对像素级预测的全卷积网络，自从该网络提出后，…

Python 2023年8月2日
0049
python对王者荣耀英雄皮肤进行图片采集~

Original: https://www.cnblogs.com/Qqun261823976/p/16522249.htmlAuthor: python倩Title: pytho…

Python 2023年11月1日
0051
CyberCat赛博猫，进阶版AXIE

欢迎各位新老朋友，我们细说P2E（Play to Earn），为广大用户提供一个深入了解链游的平台。不定期的跟大家分享一些精品项目和最新链游方向，也欢迎大家关注我们。我们第十六期分…

Python 2023年9月20日
0047
【Python 实战基础】Pandas如何获取某个数据列最大和最小的5个数

一、实战场景二、主要知识点文件读写数据合并 Pandas numpy 三、菜鸟实战 1、创建 python 文件 2、运行结果实战场景：Pandas如何获取某个数据列最大和…

Python 2023年8月17日
0055
JAVA初阶必学-线性表-顺序表

Original: https://www.cnblogs.com/lyck/p/15665172.htmlAuthor: 冷月长空Title: JAVA初阶必学-线性表-顺序表

Python 2023年5月24日
0083
云服务器上docker部署Django项目以及git项目创建

配置环境 1、一台操作系统是 Linux ubuntu 20.04 版本的云服务器，有最新话的可以去docker官网查看是否适配。然后进入自己购买的云服务器官网修改网络安全组配…

Python 2023年8月4日
0062
【无需注册账号】只需两步， Ai Studio上也可以玩[ChatGPT]了

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年9月26日
0041
为什么感觉现在很少有黑客了？

有一个词语，人人不是它，却人人都提及它，他就是：黑客！黑客，这个我们从小就接触的工种，总是衣服全身黑衣、眼戴墨镜、冷酷无情、超级厉害的形象，关键是，只要应用崩了/数据丢了等各种突…

Python 2023年9月16日
0053
【课程笔记】中科大凸优化（二）

根据线性组合的不同系数要求，将集合进一步划分为仿射集、凸集、凸锥仿射集 – 等价定义：线性方程组的解集(C={x \mid A x=b})是仿射集，对应的子空间是(…

Python 2023年10月28日
0057
python数据分析基础007 -利用pandas带你玩转excel表格（中上篇）

### 回答1： Python是一种功能强大的编程语言，可以用于各种数据分析任务。而在Python的数据分析工具库中， pandas_是最受欢迎和广泛使用的工具之一。 _Pand…

Python 2023年8月22日
0061
获取qq昵称接口_使用Python获取QQ昵称以及头像链接并写成API接口

Hi! Long time no see,guys! 公众号已经由原来的计算机天堂改名为码农小猪，今后公众号内会写一些我自己的编程经验，与大家共同学习，共同进步！最近在写一个自己…

Python 2023年8月15日
00730
插件化编程之WebAPI统一返回模型

WebApi返回数据我们一般包裹在一个公共的模型下面的，而不是直接返回最终数据，在返回参数中，显示出当前请求的时间戳，是否请求成功，如果错误那么错误的消息是什么，状态码(根据业务定…

Python 2023年10月19日
0032
Python图像处理丨如何调用OpenCV绘制直方图

摘要：本篇文章主要讲解灰度直方图的基本概念，Python调用OpenCV实现绘制图像直方图。本文分享自华为云社区《[Python图像处理] 十一.灰度直方图概念及OpenCV…

Python 2023年5月24日
0092
Python网络爬虫之数美滑块的加密及轨迹之动态js参数分析

Original: https://www.cnblogs.com/123456feng/p/16203313.htmlAuthor: 蚂蚁ailingTitle: Python网…

Python 2023年11月3日
0066
Tensorflow 卷积层实现

在TensorFlow中，可以通过自定义权值的底层实现方式搭建神经网络，也可以直接调用现成的卷积层类的高层方式快速搭建复杂网络。卷积运算输出大小公式：h’ = (h+…

Python 2023年8月30日
0044
mysql scrapy 重复数据_MySQL大数据量表中删除重复记录

MySQL大数据量表中删除重复记录最近工作中需要抓取大量新闻，抓取的数据中由于一些原因存在一些重复数据，而整个数据表的记录数接近10万条，大小接近1个G，又在我自己的渣渣本本上，…

Python 2023年10月6日
0057

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31