重读Scrapy：Spider篇_CrawlSpider的使用分析

2023年10月5日上午3:20 • Python • 阅读 52

CrawlSpider

CrawlSpider 是 Spider 的一个子类，最显著的功能就是 LinkExtractors 链接提取器，相较于 spider 来说，CrawlSpider 更适用于 需要从内层网页爬取数据的场景

例如：在新闻网站中，我们首先需要爬取新闻列表页，获取所有新闻的URL，然后再请求这些URL，获取新闻的详情数据。

执行流程

请求 start_urls 中的起始 url，并将响应结果发给 规则解析器
规则解析器得到响应体后，交由 链接提取器匹配 url
对匹配成功的 url 发起请求
根据规则解析器中的配置，决定该请求体的去向（转交函数处理 / 继续交由规则解析器进行匹配）

创建CrawlSpider

scrapy genspider -t crawl <爬虫名> <域名>

相较于默认指令，此处多了 -t crawl 参数，表示创建的爬虫文件基于 CrawlSpider 类，而不是基于 Spider 类

import scrapy

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class PnewsSpider(CrawlSpider):
    name = 'pnews'
    start_urls = ['http://bj.people.com.cn/GB/233088/index1.html']
    rules = (

        Rule(

            LinkExtractor(allow=r'/n2/2021/\d+/c\d+-\d+\.html'),
            callback='parse_item'
        ),
    )

    def parse_item(self, response):
        title = response.xpath('//h1[@id="newstit"]/text()').get()
        print(title)

规则解析器

Rule(
    link_extractor=None,
    callback=None,
    cb_kwargs=None,
    follow=None,
    process_links=None,
    process_request=None,
    errback=None
)

link_extractor：链接提取器
callback：回调函数，对链接提取器中的url发起请求，随后将请求体交由该函数
cb_kwargs：向回调函数传递的参数
follow：链接提取器提取出的 url 对应的响应是否继续被 rules 过滤（callback为None时，此参数为True）
process_links：过滤链接提取器提取出来的url
process_request：过滤 requests 请求

process_links 和 process_request 函数的具体参数可进入源码查看

文档：规则解析器

链接提取器

LinkExtractor(
    allow=(),
    deny=(),
    allow_domains=(),
    deny_domains=(),
    restrict_xpaths=(),
    tags=('a', 'area'),
    attrs=('href',),
    canonicalize=False,
    unique=True,
    process_value=None,
    deny_extensions=None,
    restrict_css=(),
    strip=True,
    restrict_text=None,
)

allow： str or list，满足括号中正则表达式的 url 会被提取，默认空，全部匹配
deny： str or list，满足括号中正则表达式的 url 不会被提取，优先级高于 allow
allow_domains：会被提取链接的域名
restrict_xpaths：通过 xpath 匹配 url

文档：链接提取器

注意事项

对于起始url，可以定义 parse_start_url 函数处理该 url 对应的响应
若页面链接为相对路径，链接提取器提取后会 自动补全
CrawlSpider 中不能重写 parse 方法，在父类中有特殊功能
如果多个 Rule 都满足一个 url，会从 rules中选择第一个满足的进行操作

Original: https://blog.csdn.net/qq_36078992/article/details/114575164
Author: zzzzls~
Title: 重读Scrapy：Spider篇_CrawlSpider的使用分析

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791493/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pytest和unittest框架的区别

1、用例设计对比 1.1 unittest 测试类必须继承unittest.TestCase 测试函数必须以”test_”开头测试类必须有unittest…

Python 2023年9月14日
0050
【Django系列】Django实现登录/注册功能

### 回答1： Django_是一种使用Python语言编写的高级Web开发框架，它提供了许多 _功能_和工具来简化Web应用程序的开发过程。要 _实现 Django 注册登录…

Python 2023年8月6日
0054
Django REST framework

创建接口的任务校验用户的数据将请求的数据(如json格式)转换为模型类对象反序列化将其他格式（json、xml等）转换为程序中的数据类型将json格式的字符串转换为Dja…

Python 2023年8月4日
0050
数据分析-numpy2

文章目录 numpy * 统计函数数据类型随机函数数组的其他函数 numpy 统计函数求平均值mean() m1=np.arange(20).reshape((4,5) m…

Python 2023年8月24日
0049
python + pandas数据储存

数据结构 Series对象创建一维数组的对象 s1 = pandas.Series([1, 2, 3, 4]) s2 = pandas.Series([1,2,3],index=…

Python 2023年8月19日
0073
基于.NetCore开发博客项目 StarBlog – (19) Markdown渲染方案探索

前言笔者认为，一个博客网站，最核心的是阅读体验。在开发StarBlog的过程中，最耗时的恰恰也是文章的展示部分功能。最开始还没研究出来如何很好的使用后端渲染，所以只能先用Ed…

Python 2023年10月17日
0075
anaconda 怎么安装xlrd_Win10下安装通过anaconda安装Scrapy问题汇总

C:\Users\aitub>pip list Package Version Original: https://blog.csdn.net/weixin_39540934…

Python 2023年10月3日
0056
Python安装Talib库

Python安装Talib库 TA-Lib，全称”Technical Analysis Library”, 即技术分析库，是Python金融量化的高级库，涵…

Python 2023年8月1日
0084
python将excel数据写入数据库，或从库中读取出来

首先介绍一下SQL数据库的一些基本操作： 1创建 2删除 3写入 4更新(修改) 5条件选择有了以上基本操作，就可以建立并存储一个简单的数据库了。放出python调用的代码: …

Python 2023年6月3日
00141
NumPy和Matplotlib绘图

NumPy和Matplotlib绘图 Matplotlib 是 Python 的绘图库，它经常与 NumPy 一起使用，从而提供一种能够代替 Matlab 的方案。不仅如此 Mat…

Python 2023年9月1日
0067
scrapy中间件—-下载器中间件

下载器中间件，实现请求的包装发少量的请求时：settings.py:USER_AGENT = ” XXX”DEFAULT_REQUEST_HEADERS …

Python 2023年10月6日
0035
Redis系列11：内存淘汰策略

Redis系列1：深刻理解高性能Redis的本质Redis系列2：数据持久化提高可用性Redis系列3：高可用之主从架构Redis系列4：高可用之Sentinel(哨兵模式）Red…

Python 2023年10月14日
0047
深度学习 Transformer架构解析

文章目录一、Transformer背景介绍 * 1.1 Transformer的诞生 1.2 Transformer的优势 1.3 Transformer的市场二、Transf…

Python 2023年9月15日
0061
机器学习基础

Linear Regression 线性回归 cost function 代价函数 [J(\theta_0,\theta_1) = \frac{1}{2m} \sum^m_{i=1…

Python 2023年6月6日
0085
python第四天字符串的常用操作方法 for循环

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月29日
0058
python实现支付宝支付

通过支付宝沙箱实现支付 提示：https://open.alipay.com/develop/sandbox/ap…

Python 2023年8月9日
0049

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31