【Scrapy】入门教程

2023年10月4日下午7:20 • Python • 阅读 45

Scrapy是一个快速的、高层次的网络爬虫框架，基于Python编写，用于爬取网页并提取结构化的数据

网址：https://scrapy.org/
官方文档：https://docs.scrapy.org/en/latest/index.html
安装：pip install scrapy

整体架构

https://docs.scrapy.org/en/latest/topics/architecture.html

核心组件

引擎(Scrapy Engine)：负责Spider、Item Pipeline、Downloader、Scheduler中间的通讯，信号、数据传递等
调度器(Scheduler)：负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列、入队
下载器(Downloader)：负责下载引擎发送的所有请求，并将其获取到的Responses交还给引擎
爬虫(Spider)：负责处理所有Responses，从中分析提取数据，并将需要跟进的URL提交给引擎，再次进入调度器
项目管道(Item Pipeline)：负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）

; 入门教程

官方文档：https://docs.scrapy.org/en/latest/intro/tutorial.html
源代码
https://github.com/ZZy979/scrapy_tutorial
https://github.com/scrapy/quotesbot

1.创建项目

scrapy startproject scrapy_tutorial

其中scrapy是{Python安装目录}\Scripts\scrapy.exe

该命令创建了一个名为scrapy_tutorial的项目，目录结构如下：

scrapy_tutorial/
    scrapy.cfg            # &#x90E8;&#x7F72;&#x914D;&#x7F6E;&#x6587;&#x4EF6;
    scrapy_tutorial/      # &#x9879;&#x76EE;&#x7684;Python&#x6A21;&#x5757;
        __init__.py
        items.py          # &#x5B9A;&#x4E49;Item
        middlewares.py    # &#x5B9A;&#x4E49;&#x4E2D;&#x95F4;&#x4EF6;
        pipelines.py      # &#x5B9A;&#x4E49;&#x9879;&#x76EE;&#x7BA1;&#x9053;
        settings.py       # &#x8BBE;&#x7F6E;&#x6587;&#x4EF6;
        spiders/          # &#x653E;&#x7F6E;&#x722C;&#x866B;&#x7684;&#x76EE;&#x5F55;
            __init__.py

2.编写爬虫(Spider)

爬虫是Scrapy用于从网站获取信息的类，所有爬虫必须继承 scrapy.Spider类，爬虫类的功能包括定义初始请求、解析页面并提取数据以及跟踪后续链接

在tutorial/spiders目录下创建文件quotes_spider.py，第一个爬虫的代码如下：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = 'quotes'
    start_urls = [
        'http://quotes.toscrape.com/page/1/',
        'http://quotes.toscrape.com/page/2/'
    ]

    def parse(self, response):
        page = response.url.split('/')[-2]
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

QuotesSpider类定义了以下属性和方法：

name：爬虫的名字，在一个项目中必须是唯一的
start_urls：初始请求URL
parse()：用于处理响应的回调函数，参数 response是一个 scrapy.http.Response类型的对象，该方法解析响应包含的页面内容，从中提取数据和新的URL

该爬虫只是简单地将获取到的内容写入文件，尚未解析HTML和发现新的URL

3.运行爬虫

在项目根目录下运行

scrapy crawl quotes

该命令将运行刚才添加的名为quotes的爬虫，并将结果保存到quotes-1.html和quotes-2.html两个文件
通过PyCharm的Run configuration运行的方法见在PyCharm中调试Scrapy爬虫

4.提取数据

Scrapy使用CSS选择器和XPath两种方式从HTML中提取数据，并且提供了一个命令行工具用于学习和试验使用选择器提取数据
运行以下命令：

scrapy shell "http://quotes.toscrape.com/page/1/"

该命令将使用给定的URL发送一个请求，并进入交互式控制台，该命令还自动打印出了可使用的对象名称：

[s] Available Scrapy objects:
[s]   scrapy     scrapy module (contains scrapy.Request, scrapy.Selector, etc)
[s]   crawler    <scrapy.crawler.crawler object at 0x00000187902603a0>
[s]   item       {}
[s]   request    <get 1 http: quotes.toscrape.com page>
[s]   response   <200 1 http: quotes.toscrape.com page>
[s]   settings   <scrapy.settings.settings object at 0x000001879025dd00>
[s]   spider     <defaultspider 'default' at 0x187905a5eb0>
[s] Useful shortcuts:
[s]   fetch(url[, redirect=True]) Fetch URL and update local objects (by default, redirects are followed)
[s]   fetch(req)                  Fetch a scrapy.Request and update local objects
[s]   shelp()           Shell help (print this help)
[s]   view(response)    View response in a browser
</defaultspider></scrapy.settings.settings></200></get></scrapy.crawler.crawler>

其中最重要的是 response和 fetch()， response是请求返回的响应（即 Spider.parse()方法的参数），提取数据的选择器均用于该对象； fetch()函数用于发送新的请求

选择器API及语法见选择器

5.跟踪链接

为quotes爬虫增加提取数据和跟踪链接的功能： 对于提取到的数据，通过yield语句产生Item对象；对于新的URL，通过yield语句产生Request对象

def parse(self, response):
    for quote in response.css('div.quote'):
        yield {
            'text': quote.css('span.text::text').get(),
            'author': quote.css('small.author::text').get(),
            'tags': quote.css('div.tags a.tag::text').getall()
        }

    next_page = response.css('li.next a::attr(href)').get()
    if next_page is not None:

        yield response.follow(next_page, callback=self.parse)

其中， next_page是形如”/page/2/”的相对URL，需要使用 response.urljoin()方法拼接为完整的URL， response.follow()方法可以自动完成这一过程

Request类构造函数的 callback参数如果为 None，则使用 Spider的parse()方法，也可以指定其他的自定义回调函数，但参数列表要和 parse()相同

注意：默认情况下，Scrapy会过滤已访问过的URL，可以通过DUPEFILTER_CLASS设置修改

6.Spider参数

可以通过scrapy crawl命令的-a选项向Spider传递参数：

scrapy crawl quotes -a tag=humor

该选项可重复多次，这些参数将被传递给Spider的构造函数并成为其属性

在上面的例子中， self.tag == 'humor'

官方文档：https://docs.scrapy.org/en/latest/topics/spiders.html#spider-arguments
参数传递过程研究：源码阅读——Spider参数传递

Original: https://blog.csdn.net/zzy979481894/article/details/122144629
Author: zzy979
Title: 【Scrapy】入门教程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791244/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

基于python地铁客流量分析平台

http://ym6se2.natappfree.cc import requestsimport pandas as pdimport timeimport csv def ds…

Python 2023年8月17日
0057
python转成exe运行出错_使用py2exe将.py转换为.exe:无法运行程序

我试图用py2exe(我有python2.7)使pygame文件可执行。程序由3个脚本组成。在我写的设置是：from distutils.core import setup im…

Python 2023年9月22日
0075
路径分析—PostgreSQL+GeoServer+Openlayers（二）

路径分析—QGIS+PostgreSQL+PostGIS+pgRouting（一）路径分析—PostgreSQL+GeoServer+Openlayers（二）前言上一篇文章…

Python 2023年10月19日
0028
【Python数据分析】利用Python删除EXCEL表格中指定的列数据或行数据

如何利用Python删除EXCEL表格中指定的列数据？今天与大家一起分享一下DataFrame对象的drop（）函数，drop（）函数可根据标签删除EXCEL表格中的列数据或行数据…

Python 2023年8月1日
00163
Google Earth Engine（GEE）——MODIS计算NDFSI（归一化差值林地积雪指数）案例

本文使用MODIS影像进行归一化差值林地积雪指数NDFSI指数计算。监测雪地常用NDSI和NDFSI计算。在积雪林地，传感器接收到的光谱信息为森林冠层和积雪的混合光谱。由于冠层的…

Python 2023年9月29日
0047
基于K-means聚类算法进行客户人群分析

摘要：在本案例中，我们使用人工智能技术的聚类算法去分析超市购物中心客户的一些基本数据，把客户分成不同的群体，供营销团队参考并相应地制定营销策略。实验目标案例内容介绍在本案例中…

Python 2023年10月29日
0031
盘它！基于CANN的辅助驾驶AI实战案例，轻松搞定车辆检测和车距计算！

摘要：基于昇腾AI异构计算架构CANN（Compute Architecture for Neural Networks）的简易版辅助驾驶AI应用，具备车辆检测、车距计算等基本功能…

Python 2023年10月17日
0028
Pandas分组：df.groupby()

关于分类汇总先创建一个DataFrame对象df： df= pd.DataFrame({‘Date’: [‘2015-05-08′,’2015-05-07’,’2015-05-0…

Python 2023年8月6日
0041
Python用numpy和PIL处理图片

调用及读取图片 import numpy as npimport matplotlib.pyplot as pltfrom PIL import Image path = &#82…

Python 2023年8月30日
0040
scrapy

引用[1]:在使用 Scrapy_进行爬虫时，可以通过定义items.py文件来指定需要爬取的字段格式。可以继承NewscrawlerItem类并定义更多的实体类，比如增加图片、视…

Python 2023年10月6日
0044
学习爬虫之Scrapy框架学习（1）—Scrapy框架初学习及豆瓣top250电影信息获取的实战！

目录： 1.Scrapy模块安装 2.Scrapy框架简介 * – 2.1 Scrapy是个啥？ 2.2 我们为啥要用这玩意呢？ 3.运行流程 * 3.1 引入： 3….

Python 2023年10月1日
0024
牛客网OJ终端输入输出

牛客网OJ终端输入输出，自己踩过的坑，有的笔试会限制编程语言。 1、输入输出常用的模块如：os，io，bufio，strings，strconv等。2、有的的oj平台不会给出模块提…

Python 2023年6月16日
0074
paddleocr安装与图片识别快速开始

本文首发我的个人博客：paddleocr安装教程快速开始 1. 安装Python环境 wget https://mirrors.huaweicloud.com/python/3.8…

Python 2023年10月21日
0029
umi-request设置请求头_scrapy_splash 设置随机请求头

本文为霾大：scrapy_splash 爬取 js 加载网页初体验zhuanlan.zhihu.com 的补充在上面的文章中我们仅仅是初步完成了 scrapy_splash …

Python 2023年10月2日
0089
SpringBoot整合MongoDB

SpringBoot整合MongoDB 一、创建项目，选择依赖二、引入相关依赖三、如果是第一次使用MongoDB，首先先创建用户定义核心配置文件五、创建实体类创建dao层…

Python 2023年9月26日
0033
DataFrame对象（创建，读取，添加，删除，方法）

创建DataFrame对象语法： pandas.DataFrame( data, index, columns, dtype, copy)data 支持多种数据类型，如:ndar…

Python 2023年8月16日
00142

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30