Python Scrapy遇到的问题（已解决）

2023年10月3日上午4:55 • Python • 阅读 38

一、scrapy爬取58同城时，response.xpath()返回空列表错误

二、scrapy没有返回我们想要的数据

三、scrapy工作原理（非常重要！！！面试必考！！！）

一、scrapy爬取58同城时，response.xpath()返回空列表错误

刚开始以为是xpath路径没对，但是试过很多次，在谷歌中xpath插件都是正确定位，一直返回空列表，用这个直接复制的xpath路径，依然返回空列表。

最后破案了！！！不知道什么原因我的url只有半截！！！（气死了）我需要的url：

但是我创建这个文件的时候粘贴到cmd中是正确完整的网址，到pycharm中打开就只剩了半截，变成了’yc.58.com’！！！！

这么一个小问题，浪费我一个小时…….

路径改对后就能成功返回了：

还有一个关于url的注意事项，如果后缀是.html时，不能在最后加/

在后面加/会出现：404

二、scrapy没有返回我们想要的数据

一定要检查一下xpath对不对！！！

一直没返回，试了n种方法，而且我的xpath是跟着尚硅谷一样敲的，所以就没怀疑是它的问题，把cookie加了UA也加了一直没有返回值，最后发现是xpath不对

改了之后就可以正常返回了：

三、scrapy工作原理（非常重要！！！面试必考！！！）

1.引擎向spider要url
2.引擎将要爬取的url给调度器
3.调度器会将url生成请求对象放入到指定的队列中
4.从队列中出队一个请求
5.引擎将请求交给下载器进行处理
6.下载器发送请求获取互联网数据
7.下载器将数据返回给引擎
8.引擎将数据再次给到spiders
9.spiders通过xpath解析该数据,得到数据或者url
10.spiders将数据或者url给到引擎
11.引擎判断是数据还是url,是数据,交给管道(item pipeline)处理;是url,交给调度器处理

Original: https://blog.csdn.net/m0_64139004/article/details/127936748
Author: 坞吾5雾
Title: Python Scrapy遇到的问题（已解决）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790000/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

python：矩阵的基本运算

一、Python 矩阵基本运算引入 numpy 库 import numpy as np python矩阵操作 1）使用 mat 函数创建一个 2X3矩阵 a = np.mat(…

Python 2023年8月1日
0031
利用Python中的pandas、matplotlib、re模块把xlsx和csv文件的数据按照指定格式批量绘制成【分组柱状图】、【双轴分组柱状图】、【分组箱线图】、【分组散点图和分组箱线图叠加图】

目录前言一、项目背景： * 1、项目描述： 2、项目目的：二、脚本主体逻辑架构 * 1、文件结构 2、脚本主体逻辑框图如下所示：三、使用步骤 * 1.引入库 2.设置字体 …

Python 2023年9月6日
0087
[ Python ] PyQt5 PySide2 笔记

https://www.cnblogs.com/yeungchie/ PyQt5 from PyQt5.QtWidgets import * from PyQt5.QtCore i…

Python 2023年6月16日
0065
python中stack函数_python pandas stack和unstack函数

在用pandas进行数据重排时，经常用到stack和unstack两个函数。stack的意思是堆叠，堆积，unstack即”不要堆叠”，我对两个函数是这样理…

Python 2023年8月8日
0048
Python程序语言学习——实验作业04——函数的应用

简要记录下本次实验作业的内容和总结。（因为觉得在文章首部添加目录没多大意思，就删了。）实验1. 利用自定义函数求所有水仙花数，并用逗号隔开输出。所谓水仙花数是一个三位数，其每位…

Python 2023年11月3日
0026
【Docker】第一次用docker来部署django项目-20220209

1.前提： 1.1 Django项目在本机要能正常启动。 1.2 docker desktop正常安装好。 1.3 Django启动服务器时要指定端口(python3 manage…

Python 2023年8月4日
0062
开始你的第一个scrapy项目吧

开始你的第一个scrapy项目吧 * – scrapy安装与验证 – 创建第一个scrapy项目 – 创建爬虫文件 – 爬虫文件各参…

Python 2023年10月3日
0024
Linux环境下conda虚拟环境的迁移

文章目录 * – 前言 – 1. 虚拟环境迁移 – 2. 整体迁移 – + 2.1 修改conda文件 + 2.2 修改pip文件 …

Python 2023年9月7日
0058
Pandas DataFrame使用实例1：英超积分榜

import pandas as pd 用英超积分榜这个实例来熟悉下pandas中DataFrame的操作。首先从网上抠一个当前的英超积分榜，保存为ecxel格式。然后导入到pan…

Python 2023年8月21日
0055
[TI TDA4 J721E] TDA4平台相关技术文章汇总

首先感谢阅读，如果您也对TDA4相关的开发感兴趣，我们这边有个学习交流微信群，可以入群和大家一起交流学习。资历较浅，水平有限，如遇错误，请大家多指正！保持开源精神，共同分享、进…

Python 2023年10月26日
0048
Wireshark零基础使用教程（超详细）

「作者主页」：士别三日wyx「作者简介」：CSDN top100、阿里云博客专家、华为云享专家、网络安全领域优质创作者「专栏简介」：此文章已录入专栏《网络安全快速入门》 Wires…

Python 2023年9月15日
0073
Python数据可视化matplotlib：第二回：艺术画笔见乾坤

第二回：艺术画笔见乾坤 ; Artist的分类这一部分主要介绍的是Artist内部的一些东西。下面内容转载自fantastic-matplotlib 第一列表示matplotli…

Python 2023年9月4日
0058
Pygame是什么

Python 是当下最为火热，且功能最为全面的一门编程语言。Python 之所以深受大家喜爱，除了可以被应用到”人工智能”领域之外，还可以延伸到数据分析、…

Python 2023年9月19日
0040
Pandas基础知识（二）——DataFrame对象

一个初学者小菜鸟的笔记，欢迎纠正！目录 DataFrame对象创建DataFrame对象列表方式创建DataFrame对象 DataFrame的重要性 DataFrame的取…

Python 2023年8月18日
0092
使用django+websocket+redis+channels实现简易聊天室

1.创建一个django项目从存储项目的文件夹进入cmd命令行终端，输入以下命令创建chatroom项目 django-admin startproject chatroom 然…

Python 2023年5月23日
00107
CSS 网格 Gird 布局

通过将属性 display 的值设为 grid，HTML 元素就可以变为网格容器。注意：在 CSS 网格中，父元素称为容器（container），它的子元素称为项（items）…

Python 2023年6月9日
0074

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python Scrapy遇到的问题（已解决）

一、scrapy爬取58同城时，response.xpath()返回空列表错误

二、scrapy没有返回我们想要的数据

三、scrapy工作原理（非常重要！！！面试必考！！！）

大家都在看