Scrapy框架-Selector的用法

2023年10月6日上午1:06 • Python • 阅读 41

Selector的用法

Scrapy shell
XPath选择器
CSS选择器
正则匹配

Scrapy shell

借助Scrapy shell来模拟Scrapy请求的过程：
cmd输入以下命令开启Scrapy shell：
scrapy shell
http://doc.scrapy.org/en/latest/_static/selectors-sample1.html

可以在该模式下输入命令调用对象的一些操作方法，回车之后实时显示结果

; XPath选择器

返回结果是selector组成的列表，实际上是SelectorList类型，仍然可以继续调用xpath()和css()等方法来进一步提取数据。 和列表的操作方法是一样的

CSS选择器

与xpath用法一致

选取节点：response.css(‘a’)
提取节点：response.css(‘a’).extract()
属性选择:response.css(‘a[href=”image1.html”]’).extract()
节点内部文本和属性获取：response.css(‘a[href=”image1.html”]::text’).extract_first()
response.css(‘a[href=”image1.html”] img::attr(src)’.extract_first()
获取文本和属性需要用::text和::attr()的写法
xpath()和css()方法可以任意自由组合实现嵌套查询

正则匹配

*直接调用re()方法会提示没有re属性，但是先调用了xpath（’.’）选中全文，再调用就可以进行正则匹配了。

Original: https://blog.csdn.net/shallow_xxx/article/details/114487795
Author: shallow~萱
Title: Scrapy框架-Selector的用法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792205/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

unnitest和pytest

1、unittest框架的作用：当我们写的用例越来越多，就需要考虑用例编写的规范和组织，以便于后期的维护，而unittest正是这样的工具。2、unittest是python自带的…

Python 2023年9月13日
0067
Flask框架实现文件下载功能（1）

然后在app.py中加入这么一个路由： from flask import Flask, Response from flask import render_template ap…

Python 2023年8月9日
0056
爬虫逆向基础，认识 SM1-SM9、ZUC 国密算法

关注微信公众号：K哥爬虫，QQ交流群：808574309，持续分享爬虫进阶、JS/安卓逆向等技术干货！【01×00】简介国密即国家密码局认定的国产加密算法，爬虫工程…

Python 2023年5月25日
0085
Python Matplotlib绘制漂亮的K线图，利用Tushare绘制K线图

1 引言做量化分析，难免要将自己的某些指标等绘制在K线图上，或者对某些指标进行改造观察K线图和指标对应的走势关系。那么用Python如何绘制和炒股软件类似的效果呢。 2 准备工具…

Python 2023年9月1日
00137
Data Wrangling with Python学习笔记

Chapter 3 Numpy、pandas、Matplotlib 一、Numpy数组操作 1、数组可以由整数、浮点数、布尔值、字符串甚至混合类填充，大多数情况下数字数据类型占主导…

Python 2023年8月27日
0070
python飞机大战简书_python（pygame）滑稽大战(类似飞机大战) 教程

基于pygame实现类似飞机大战小游戏(滑稽大战) 成品已录制视频投稿B站，点击观看动画初始准备工作本项目使用的python3版本(如果你用python2，我不知会怎么样) I…

Python 2023年9月25日
0037
web前端-表单的使用详解

🐚作者简介：苏凉（专注于网络爬虫，数据分析）🐳博客主页：苏凉.py的博客🌐系列专栏：web前端基础教程👑名言警句：海阔凭鱼跃，天高任鸟飞。📰要是觉得博主文章写的不错的话，还望大家三…

Python 2023年11月8日
0062
Django学习第一周和第二周（pycharm专业版）

1. 终端打开方式：windows+r或者在搜索中输入cmd 2 .（1）安装django：打开电脑终端输入pip install django回车（或者去django官网下载d…

Python 2023年8月4日
0055
可视化神器Plotly玩转股票图

可视化神器Plotly玩转股票图本文是可视化神器Plotly绘图的第7篇，讲解的是如何通过Plotly来绘制与股市相关的图形，比如基础K线图、OHLC图等。温馨提示⚠️：股市有…

Python 2023年8月8日
0090
Pycharm远程调试显示图片，TkAGG报错问题排查

使用Pycharm 远程调试程序很方便，但是plt无法显示图片。可以参考Pycharm远程连接服务器并显示图片_牛仔不感冒的博客-CSDN博客以下是最近使用matplotlib…

Python 2023年9月1日
0071
MySQL_远程连接的坑与路

前言：受朋友之托，帮他解决一个远程连接不上mysql的问题，本来想着这是一个很常见的问题，只需要修改下配置文件的，以前也碰到过，但是时间间隔的有点久了，还是有些生疏了，特此记录碰到…

Python 2023年6月9日
0075
如何在Python中安装NumPy

公众号-IT赶路人，专注分享与IT相关的知识！ NumPy是Python编程不可或缺的一个库。在本文中，我们将学习如何在Python中安装NumPy。以下要点将在本文中介绍，让我们…

Python 2023年8月24日
0080
读取json文件为dataframe后行列倒置的解决办法，以及dataframe基本操作（删除指定行、列，根据值筛选等）

今天写了个代码是读取json文件，但是，json文件读完后，行列倒置了，也就是说，列名成了行名，反而行的索引成为了列名，其实这个很简单，只需要加一个转置即可： df=df.T 这个…

Python 2023年8月7日
0056
(四)孪生神经网络介绍及pytorch实现

欢迎访问个人网络日志🌹🌹知行空间🌹🌹 孪生神经网络介绍及pytorch实现 * – 1.孪生神经网络 – 2.孪生神经网络的损失函数 – 2.1…

Python 2023年10月9日
0058
【一周聚焦】联邦学习 arxiv 3.11-3.18

O. Marfoq, G. Neglia, L. Kameni, and R. Vidal, “Personalized Federated Learning thro…

Python 2023年10月26日
0047
Python123题库—04简单循环

1. 用一行代码求和类型：简单循环描述‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‪‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‫‬‪‬‪‬‪‬‪‬‪‬‮‬‪‬‮‬‪‬‪‬…

Python 2023年11月2日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31