爬虫框架Scrapy（2）Selector的用法

2023年10月5日下午11:03 • Python • 阅读 39

我们之前介绍了利用 'Xpath'、'Beautiful Soup'、'pyquery' 以及正则表达式来提取网页数据，这确实非常方便。而 Scrapy 还提供了自己的数据提取方法，即 Selector（选择器）。Selector 是基于 lxml 来构建的，支持 XPath 选择器、CSS 选择器以及正则表达式，功能全面，解析速度和准确度非常高。本节将介绍 Selector 的用法。

Selector 是一个可以独立使用的模块。我们可以直接利用 Selector 这个类来构建一个选择器对象，然后调用它的相关方法如 xpath ()、css () 等来提取数据。例如下面的示例：

from scrapy import Selector

body = 'Hello World'
selector = Selector(text=body)
title = selector.xpath('//title/text()').extract_first()
print(title)

Hello World

我们在这里没有在 Scrapy 框架中运行，而是把 Scrapy 中的 Selector 单独拿出来使用了，构建的时候传入 text 参数，就生成了一个 Selector 选择器对象，然后就可以像前面我们所用的 Scrapy 中的解析方式一样，调用 xpath ()、css () 等方法来提取了。在这里我们查找的是源代码中的 title 中的文本，在 XPath 选择器最后加 text () 方法就可以实现文本的提取了。以上内容就是 Selector 的直接使用方式。

由于 Selector 主要是与 Scrapy 结合使用，如 Scrapy 的回调函数中的参数 response 直接调用 xpath () 或者 css () 方法来提取数据，所以在这里我们借助 Scrapy shell 来模拟 Scrapy 请求的过程，来讲解相关的提取方法。我们用官方文档的一个样例页面来做演示：http://doc.scrapy.org/en/latest/_static/selectors-sample1.html。

开启 Scrapy shell，在命令行输入如下命令：

(pyspider) pyvip@VIP:~$ scrapy shell http://doc.scrapy.org/en/latest/_static/selectors-sample1.html
2021-03-17 11:39:43 [scrapy.utils.log] INFO: Scrapy 2.4.1 started (bot: scrapybot)
2021-03-17 11:39:43 [scrapy.utils.log] INFO: Versions: lxml 4.5.2.0, libxml2 2.9.10, cssselect 1.1.0, parsel 1.6.0, w3lib 1.22.0, Twisted 21.2.0, Python 3.6.9 (default, Jul 17 2020, 12:50:27) - [GCC 8.4.0], pyOpenSSL 20.0.1 (OpenSSL 1.1.1j  16 Feb 2021), cryptography 3.4.6, Platform Linux-4.15.0-136-generic-x86_64-with-Ubuntu-18.04-bionic
2021-03-17 11:39:43 [scrapy.utils.log] DEBUG: Using reactor: twisted.internet.epollreactor.EPollReactor
2021-03-17 11:39:43 [scrapy.crawler] INFO: Overridden settings:
{
   'DUPEFILTER_CLASS': 'scrapy.dupefilters.BaseDupeFilter',
 'LOGSTATS_INTERVAL': 0}
2021-03-17 11:39:43 [scrapy.extensions.telnet] INFO: Telnet Password: 55ac6ab2df331e99
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.memusage.MemoryUsage']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.cookies.CookiesMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2021-03-17 11:39:43 [scrapy.middleware] INFO: Enabled item pipelines:
[]
2021-03-17 11:39:43 [scrapy.extensions.telnet] INFO: Telnet console listening on 127.0.0.1:6025
2021-03-17 11:39:43 [scrapy.core.engine] INFO: Spider opened
2021-03-17 11:39:45 [scrapy.downloadermiddlewares.redirect] DEBUG: Redirecting (302) to <GET https://docs.scrapy.org/en/latest/_static/selectors-sample1.html> from <GET http://doc.scrapy.org/en/latest/_static/selectors-sample1.html>
2021-03-17 11:39:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://docs.scrapy.org/en/latest/_static/selectors-sample1.html> (referer: None)
[s] Available Scrapy objects:

Original: https://blog.csdn.net/qq_45617055/article/details/115136653
Author: Python@达人
Title: 爬虫框架Scrapy（2）Selector的用法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792139/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python绘制渐变色三角形

本文要点在于Python扩展库pyopengl的应用，关于OpenGL函数参数含义可以查阅有关资料。 import sys from OpenGL.GL import * from…

Python 2023年9月24日
0035
今日内容 drf请求与响应和2个视图基类

*drf请求与响应 Request和Response类继承APIView后，请求对象:request>>>之后的每一次请求都是一个新的request Reque…

Python 2023年6月12日
0074
scrapy数据流程

Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)Engi…

Python 2023年10月4日
0039
anaconda安装、matplotlib折线图、散点图、条形图、直方图

环境软件 anaconda安装与操作（已完成）练习绘制网格 plt.grid() 绘制图例 plt.plot(x,y_1,label=”自己”)plt….

Python 2023年9月5日
0041
刚刚发现的可视化动态图库ipyvizzu，太好看了

ipyvizzu生成的可视化图形是动态的，以前我们生成的可视化图形都是静态不动的。它是python中的非标准库ipyvizzu，因此使用pip的方式额外安装一下。【阅读全文】 …

Python 2023年11月2日
0053
【Python】实现循环最快的方式

Original: https://www.cnblogs.com/123456feng/p/16082064.htmlAuthor: 蚂蚁ailingTitle: 【Python…

Python 2023年11月9日
0025
Host请求头在虚拟主机服务多网域服务中的关键作用

先重温一下什么叫反向代理，正向代理。鹅厂二面，nginx回忆录所谓正向，反向代理取决于代理的是出站请求，还是入站请求。正向代理：代理的出站请求，客户端能感知到代理程序，…

Python 2023年10月23日
0052
基于FFmpeg的Java视频Mp4转GIF初探

背景在一些业务场景中，会有如下的一些要求：比如有用户需要将Mp4视频转为Gif动图。当然有一些小伙伴说可以使用系统截图，然后使用之前提到过的技术：GIF图像动态生成-JAVA后台…

Python 2023年8月2日
0047
Django4.1从入门到精通——创建第一个官方Demo应用

前言官方文档：编写你的第一个 Django 应用 https://docs.djangoproject.com/zh-hans/4.1/intro/tutorial01/ 官方这…

Python 2023年8月5日
0055
Python pytest框架（一）

** 简介：与python自带的unittest测试框架类似，但是pytest更简洁、高效，且兼容unittest。支持简单的单元测试和功能测试，结合rquests实现接口测试，…

Python 2023年9月13日
0029
MongoDB安全加固，防止数据库攻击删除勒索威胁

前言：今天发现前段时间自己搭建的一个系统的MongoDB数据找不到了，觉得很奇妙，然后登上MongoDB数据库发现多了一个名为READ__ME_TO_RECOVER_YOUR_D…

Python 2023年10月12日
0063
Educoder Matplotlib和Seaborn 三维图第一关绘制三维图

第一关绘制三维图任务描述相关知识 matplotlib画三维图线框图和曲面图编程要求测试说明任务描述本关任务：使用 matplotlib绘制三维图。相关知识 ma…

Python 2023年9月1日
0070
Pandas 全系列教程分享

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月18日
0049
持续集成：Selenium+Pytest+Allure+Git+Jenkins（Windows ）

运行环境： selenium web driver python3 pytest git Selenium Web自动化测试框架配置文件：iselenium.ini 将配置文件复…

Python 2023年9月13日
0029
云服务器flask项目搭建

安装python环境步骤一：检查系统中是否有wget和pip(如果没有执行步骤二安装，如果已存在则执行步骤3) pip3 –version python3 –version …

Python 2023年8月11日
0034
python爬虫框架——scrapy(3) scrapy中间件

此文主要是按照上一篇的介绍能够定制爬虫项目中间件，scrapy框架里面的代码和基本和上一篇的相同，这里进行一一介绍。这是scrapy框架的流程图（scrapy原理，安装方法都在上一…

Python 2023年10月5日
0043

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫框架Scrapy（2）Selector的用法

大家都在看