网络爬虫：Scrapy爬虫框架

2023年10月1日上午9:27 • Python • 阅读 31

Scrapy爬虫框架

Copyright: Jingmin Wei, Pattern Recognition and Intelligent System, School of Artificial and Intelligence, Huazhong University of Science and Technology

网络爬虫专栏链接

文章目录

*
–
+ Scrapy爬虫框架
+
* Reference
* Scrapy爬虫框架介绍
* Scrapy爬虫框架流程
* Requests库和Scrapy爬虫框架对比
* Scrapy爬虫的常用命令
* Scrapy爬虫实例
*
– 步骤1：建立一个Scrapy爬虫工程
– 步骤2：在工程中产生一个 Scrapy 爬虫
– 步骤3：配置产生的spider爬虫
– 步骤4：运行爬虫，获取网页
* yield 关键字
* Scrapy爬虫的基本使用

本教程主要参考中国大学慕课的 Python 网络爬虫与信息提取，为个人学习笔记。

在学习过程中遇到了一些问题，都手动记录并且修改更正，保证所有的代码为有效。且结合其他的博客总结了一些常见问题的解决方式。

本教程不商用，仅为学习参考使用。如需转载，请联系本人。

Reference

爬虫 MOOC

数据分析 MOOC

廖雪峰老师的 Python 教程

Scrapy爬虫框架介绍

Scrapy 是一个快速功能强大的网络爬虫框架

Win 平台: “以管理员身份运行” cmd ，执行

pip3 install scrapy
pip3 --time-out=2000 install scrapy

安装后小测：执行 scrapy ‐h

Scrapy 不是一个函数功能库，而是一个爬虫框架。

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合，它是一个半成品，能够帮助用户实现专业网络爬虫。

Scrapy爬虫框架流程

结构，分布式，”5+2″结构

数据流的三个路径：

1 Engine 从 Spider 处获得爬取请求(Request)

2 Engine 将爬取请求转发给 Scheduler，用于调度

3 Engine 从 Scheduler 处获得下一个要爬取的请求

4 Engine 将爬取请求通过中间件发送给 Downloader

5 爬取网页后，Downloader 形成响应(Response)通过中间件发给 Engine

6 Engine 将收到的响应通过中间件发送给 Spider 处理

7 Spider 处理响应后产生爬取项(scraped Item)和新的爬取请求(Requests)给 Engine

8 Engine 将爬取项发送给 Item Pipeline(框架出口)

9 Engine 将爬取请求发送给 Scheduler

数据流的出入口：

Engine 控制各模块数据流，不间断从 Scheduler 处获得爬取请求，直至请求为空

框架入口：Spider 的初始爬取请求

框架出口：Item Pipeline

Engine

(1) 控制所有模块之间的数据流

(2) 根据条件触发事件

不需要用户修改

Downloader

根据请求下载网页，不需要用户修改

Scheduler

对所有爬取请求进行调度管理，不需要用户修改

Downloader Middleware

目的：实施 Engine、Scheduler 和 Downloader 之间进行用户可配置的控制

功能：修改、丢弃、新增请求或响应

用户可以编写配置代码

Spider

(1) 解析 Downloader 返回的响应(Response)

(2) 产生爬取项(scraped item)

(3) 产生额外的爬取请求(Request)

需要用户编写配置代码

Item Pipelines

(1) 以流水线方式处理 Spider 产生的爬取项

(2) 由一组操作顺序组成，类似流水线，每个操作是一个 Item Pipeline 类型

(3) 可能操作包括：清理、检验和查重爬取项中的 HTML 数据、将数据存储到数据库

需要用户编写配置代码

Spider Middleware

目的：对请求和爬取项的再处理

功能：修改、丢弃、新增请求或爬取项

用户可以编写配置代码

“5+2” 结构

; Requests库和Scrapy爬虫框架对比

相同点：

两者都可以进行页面请求和爬取，Python 爬虫的两个重要技术路线

两者可用性都好，文档丰富，入门简单

两者都没有处理 js、提交表单、应对验证码等功能（可扩展）

不同点：

页面级爬虫网站级爬虫功能库框架并发性考虑不足，性能较差并发性好，性能较高重点在于页面下载重点在于爬虫结构定制灵活一般定制灵活，深度定制困难上手十分简单入门稍难

选用哪个技术路线开发爬虫呢？

非常小的需求，requests 库

不太小的需求，Scrapy 框架

定制程度很高的需求（不考虑规模），自搭框架，requests > Scrapy

Scrapy爬虫的常用命令

Scrapy 是为持续运行设计的专业爬虫框架，提供操作的 Scrapy 命令行

Win 下，启动 cmd 控制台

scrapy -h

命令行格式：

scrapy  [options] [args]

主要命令在 command 部分编写

命令说明格式startproject创建一个新工程scrapy startproject

为什么Scrapy采用命令行创建和运行爬虫？

命令行（不是图形界面）更容易自动化，适合脚本控制。本质上，Scrapy是给程序员用的，功能（而不是界面）更重要。

Scrapy爬虫实例

演示HTML页面地址：http://python123.io/ws/demo.html

文件名称：demo.html

应用Scrapy爬虫框架主要是编写配置型代码

步骤1：建立一个Scrapy爬虫工程

选取一个目录（E:\新桌面\python\练习代码\scrapy爬虫框架），然后执行如下命令：

scrapy startproject python123demo

生成工程目录如下：

步骤2：在工程中产生一个 Scrapy 爬虫

进入工程目录(E:\新桌面\python\练习代码\scrapy爬虫框架\python123demo)，然后执行如下命令：

scrapy genspider demo python123.io

该命令作用：

(1) 生成一个名称为 demo 的 spider

(2) 在 spiders 目录下增加代码文件 demo.py

该命令仅用于生成demo.py，该文件也可以手工生成

步骤3：配置产生的spider爬虫

配置：（1）初始 URL 地址（2）获取页面后的解析方式

打开 demo.py


import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'

    start_urls = ['http://python123.io/ws/demo.html']

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Save file %s' %fname)

步骤4：运行爬虫，获取网页

在命令行下(E:\新桌面\python\练习代码\scrapy爬虫框架\python123demo)，执行如下命令：

scrapy crawl demo

执行完成后，在工程目录下，生成了demo.html文件

demo.py代码的完整版本：


import scrapy

class DemoSpider(scrapy.Spider):
    name = 'demo'

    def start_requests(self):
    urls = ['http://python123.io/ws/demo.html']
    for url in urls:
        yield scrapy.Request(url = url, callback = self.parse)

    def parse(self, response):
        fname = response.url.split('/')[-1]
        with open(fname, 'wb') as f:
            f.write(response.body)
        self.log('Save file %s' %fname)

由此引入下一节，yield 关键字。

yield 关键字

yield 生成器：生成器每次产生一个值(yield 语句)， 函数被冻结， 被唤醒后再产生一个值。

生成器是一个不断产生值的函数。

>>> def gen(n):
    for i in range(n):
        yield i**2

>>> for i in gen(5):
    print(i,"",end="")

0 1 4 9 16

生成器相比一次列出所有内容的优势：

更节省存储空间，响应更迅速，使用更灵活。

Scrapy爬虫的基本使用

步骤1：创建一个工程和 Spider 模板

步骤2：编写 Spider

步骤3：编写 Item Pipeline

步骤4：优化配置策略

Request类

class scrapy.http.Request()

Request 对象表示一个 HTTP 请求。由 Spider 生成，由 Downloader 执行。

属性或方法说明.urlRequest 对应的请求 URL 地址.method对应的请求方法，’GET’ ‘POST’ 等.headers字典类型风格的请求头.body请求内容主体，字符串类型.meta用户添加的扩展信息，在 Scrapy 内部模块间传递信息使用.copy()复制该请求

Response类

class scrapy.http.Response()

Response 对象表示一个 HTTP 响应。由 Downloader 生成，由 Spider 处理。

属性或方法说明.urlResponse 对应的 URL 地址.statusHTTP 状态码，默认是 200.headersResponse 对应的头部信息.bodyResponse 对应的内容信息，字符串类型.flags一组标记.request产生 Response 类型对应的 Request 对象.copy()复制该响应

Item类

class scrapy.item.Item()

Item 对象表示一个从 HTML 页面中提取的信息内容。由 Spider 生成，由 Item Pipeline 处理。

Item 类似字典类型，可以按照字典类型操作。

Scrapy爬虫支持多种HTML信息提取方法：

Beautiful Soup，lxml，re，XPath Selector，CSS Selector

CSS Selector的基本使用

<HTML>.css('a::attr(href)').extract()

Original: https://blog.csdn.net/weixin_44979150/article/details/123430278
Author: 宅家的小魏
Title: 网络爬虫：Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788643/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【TensorFlow】TensorFlow与cuda版本以及Keras版本以及python版本对应关系（2022年6月附官网链接，永久更新）

目录一、前言二、Tensorflow与cuda版本以及python版本对应关系 * Linux – CPU GPU macOS 三、TensorFlow与Keras…

Python 2023年8月2日
00138
单元测试Pytest的使用

unittest：Setup>> setupclass , teardown >> teardownclass Pytest: setup, setup_c…

Python 2023年9月14日
0031
Jetson xavier NX等Jetson系列开发板设置Python脚本的开机自启动（需要激活conda环境下）

Jetson xavier NX开机自启动python程序失败案例：本人使用shell脚本进行开机自启动失败：当时严格按照Jetson nano开机自启动python程序的相关…

Python 2023年9月8日
0044
YOLOv5的Tricks | 【Trick12】YOLOv5使用的数据增强方法汇总

如有错误，恳请指出。时隔两个多月重新看yolov5的代码显然开始力不从心，当时应该一鼓作气的整理完的。在专栏前面的内容一直介绍的是yolov5训练时候使用的一些技巧，这里用这篇…

Python 2023年9月27日
0042
数据结构篇——KMP算法

本次我们介绍数据结构中的KMP算法，我们会从下面几个角度来介绍：问题介绍暴力求解知识补充 Next示例 Next代码匹配示例匹配代码完整代码问题介绍首先我们先介绍适…

Python 2023年10月14日
0049
Day04-路由层

1.1静态路由匹配方式在urls.py文件里的urlpatterns进行配置路由。只要路径相同，不管是GET，POST，全归为一类请求 path(‘index/’,views….

Python 2023年8月5日
0050
国内RPA融资年终大盘点：19起投资总额破34亿估值近230亿，垂直落地之年开启

2021国内RPA融资年终盘点：15家厂商融资总额破34亿，估值近230亿 2021RPA融资年终大盘点：19起投资估值近230亿，垂直落地之年开启 2021国内RPA融资年终盘点…

Python 2023年10月26日
0052
用matplotlib可视化加州房价价格（散点图各个参数的含义）

需要用到的数据是加州住房价格的数据集。该数据集基于1990年加州入口普查的数据。数据下载地址将地理数据可视化 housing.plot(kind=”scatter”, x=”lo…

Python 2023年9月5日
0067
bbs项目之注册功能

404. 抱歉，您访问的资源不存在。可能是URL不正确，或者对应的内容已经被删除，或者处于隐私状态。 [En] It may be that the URL is incorre…

Python 2023年5月23日
0064
创建DataFrame

一：import pandas as pdfrom pyspark.sql import SparkSessionfrom pyspark.sql.types import Str…

Python 2023年8月17日
0057
记一次用arthas排查jvm中CPU占用过高问题

记一次使用 arthas排查jvm中CPU占用过高问题。这工具屌爆了碾压我目前使用的全部JVM工具。安装小试 curl -O https://arthas.aliyun.co…

Python 2023年10月23日
0029
【机器学习项目实战10例目录】项目详解 + 数据集 + 完整源码

前言大家好，我是阿光。本专栏整理了《机器学习项目实战10例》，内包含了各种不同的入门级机器学习项目，包含项目原理以及源码，每一个项目实例都附带有完整的代码+数据集。注意：本专…

Python 2023年10月9日
0042
gunicorn部署flask项目

一、WSGI协议 web框架用来如何生成html代码，web服务器用于处理和响应HTTP请求。 web框架和web服务器之间的通信，需要一套双方都接受并能够采用的接口协议，由此出现…

Python 2023年8月12日
0046
【论文导读】- Cluster-driven Graph Federated Learning over Multiple Domains（聚类驱动的图联邦学习）

文章目录论文信息摘要主要贡献聚类驱动的图联邦学习 * 问题定义联邦聚类聚类模型聚类模型的联系 FedCG框架论文信息 Cluster-driven Graph Fe…

Python 2023年11月6日
0048
python结合excel进行自动化测试_Python接口自动化测试框架: pytest+allure+jsonpath+requests+excel实现的接口自动化测试框架(学习成果)…

最近在自己学习接口自动化测试，这里也算是完成一个小的成果，欢迎大家交流指出不合适的地方，源码在文末整体代码结构优化未实现，导致最终测试时间变长，其他工具单接口测试只需要39ms,…

Python 2023年9月13日
0047
【JS 逆向百例】某音 X-Bogus 逆向分析，JSVMP 纯算法还原

声明本文章中所有内容仅供学习交流使用，不用于其他任何目的，不提供完整代码，抓包内容、敏感网址、数据接口等均已做脱敏处理，严禁用于商业用途和非法用途，否则由此产生的一切后果均与作者…

Python 2023年10月31日
0044

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30