《精通Python爬虫框架Scrapy》第5章 迅速的爬虫技巧

第3章关注的是如何从页面中抽取信息,并将其存储到 Items中。我们所学习的内容已经覆盖了大部分常见的Scrapy用例,足够你创建并运行爬虫了。而在本章中,我们将看到更多特殊的例子,以便让你更加熟悉Scrapy的两个最重要的类——RequestResponse,即我们在第3章中提到的UR2IM抓取模型中的两个R。

通常情况下,你会发现自己想要抽取数据的网站存在登录机制。大部分情况下,网站会要求你提供用户名和密码用于登录。你可以从 http://web:9312/dynamic(从dev机器访问)或 http://localhost:9312/ dynamic(从宿主机浏览器访问)找到我们要使用的例子。如果使用”user”作为用户名,”pass”作为密码的话,你就可以访问到包含3个房产页面链接的网页。不过现在的问题是,要如何使用Scrapy执行相同的操作?

让我们使用Google Chrome浏览器的开发者工具来尝试理解登录的工作过程(见图5.1)。首先,打开 Network选项卡(1)。然后,填写用户名和密码,并单击 Login(2)。如果用户名和密码正确,你将会看到包含3个链接的页面。如果用户名和密码不匹配,将会看到一个错误页。

Original: https://blog.csdn.net/rmyd01/article/details/118604615
Author: 人民邮电出版社有限公司
Title: 《精通Python爬虫框架Scrapy》第5章 迅速的爬虫技巧

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/792997/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球