Scrapy爬虫框架-通过Cookies模拟自动登录

2023年7月17日上午9:24 • 人工智能 • 阅读 60

熟练使用Cookies在编写爬虫程序时是非常重要的，Cookies代表用户的信息，如果需要爬取登录后网页的信息，就可以将Cookies信息保存，然后在第二次获取登录后的信息时就不需要再次登录了，直接使用Cookies进行登录即可。

1.3.1 在Scrapy中，如果想在Spider(爬虫)文件中直接定义并设置Cookies参数时，可以参考以下示例代码：

import scrapy

class CookiespiderSpider(scrapy.Spider):

    name = 'cookieSpider'

    allowed_domains = ['httpbin.org/get']

    start_urls = ['http://httpbin.org/get']

    cookies = {'CookiesDemo': 'python'}

    def start_requests(self):

        yield scrapy.Request(url=self.start_urls[0], cookies=self.cookies, callback=self.parse)

    def parse(self, response):

        print(response.text)
        pass

程序运行结果如下：

{
  "args": {},
  "headers": {
    "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8",
    "Accept-Encoding": "gzip, deflate",
    "Accept-Language": "en",
    "Cookie": "CookiesDemo=python",
    "Host": "httpbin.org",
    "User-Agent": "Scrapy/2.5.1 (+https://scrapy.org)",
    "X-Amzn-Trace-Id": "Root=1-620f78be-7272752a5bfe1e53464471ff"
  },
  "origin": "122.143.185.159",
  "url": "http://httpbin.org/get"
}

注意

以上示例代码中的Cookies是一个模拟测试所使用的信息，并不是一个真实有效的Cookies信息，所以在使用时需要将Cookies信息设置为爬取网站对应的真实Cookies。

1.3.2 通过Cookies模拟自动登录

在Scrapy中除了使用以上示例代码中的方法设置Cookies以外，也可以使用自定义中间件的方式设置Cookies。以爬取某网站登录后的用户名信息为列，具体实现步骤如下：

1.3.2.1 首先在自己选定的文件夹(本例是’/Users/liuxiaowei/PycharmProjects/爬虫练习/Scrapy爬虫框架’)下执行命令”scrapy startproject cookiesDemo”创建项目，然后执行”cd cookiesDemo”执行”scraps genspider cookieSpider douban.com”创建爬虫文件。如下图：

; 1.3.2.2 在cookieSpider.py文件中编写爬虫代码，代码如下：

import scrapy

class CookiespiderSpider(scrapy.Spider):

    name = 'cookieSpider'

    allowed_domains = ['douban.com']

    start_urls = ['http://douban.com/']

    def start_requests(self):

        yield scrapy.Request(url=self.start_urls[0],  callback=self.parse)

    def parse(self, response):

        print(response.xpath('//*[@id="db-global-nav"]/div/div[1]/ul/li[2]/a/span[1]/text()').extract_first())

        pass

from scrapy.crawler import CrawlerProcess

from scrapy.utils.project import get_project_settings

if __name__=='__main__':

    process = CrawlerProcess(get_project_settings())

    process.crawl('cookieSpider')

    process.start()

1.3.2.3 在middlewares.py文件中，定义用于格式化与设置Cookie的中间件，代码如下：


class CookiesdemoMiddleware(object):

    def __init__(self, cookies_str):
        self.cookies_str = cookies_str

    @classmethod
    def from_crawler(cls, crawler):
        return cls(

            cookies_str = crawler.settings.get('COOKIES_DEMO')
            )

    cookies = {}
    def process_request(self, request, spider):

        for cookie in self.cookies_str.split(';'):

            key, value = cookie.split('=', 1)

            self.cookies.__setitem__(key, value)

        request.cookies = self.cookies

1.3.2.4 在middlewares.py文件中，定义随机设置请求头的中间件。代码如下：


from fake_useragent import UserAgent

class RandomHeaderMiddleware(object):

    def __init__(self, crawler):
        self.ua = UserAgent()

        self.type = crawler.settings.get('RANDOM_UA_TYPE', 'chrome')

    @classmethod
    def from_crawler(cls, crawler):

        return cls(crawler)

    def process_request(self, request, spider):

        request.headers.setdefault('User-Agent', getattr(self.ua, self.type))

1.3.2.5 打开settings.py 文件，在该文件中首先将DOWNLOADER_MIDDLEWARES配置信息中的默认配置信息禁用，然后添加用于处理Cookies与随机请求头的配置信息并激活，最后定义从浏览器中获取的Cookies信息，代码如下：

DOWNLOADER_MIDDLEWARES = {

    'cookiesDemo.middlewares.CookiesdemoMiddleware': 201,

   'cookiesDemo.middlewares.RandomHeaderMiddleware':202,

   'cookiesDemo.middlewares.CookiesdemoDownloaderMiddleware': None,
}

COOKIES_DEMO = '此处填写您自己登录网页后中的Cookie信息'

程序运行结果如下：

2022-02-18 21:17:49 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.douban.com/> (referer: None)
bruce_liu的帐号
2022-02-18 21:17:49 [scrapy.core.engine] INFO: Closing spider (finished)

与抓包工具里显示的登录用户信息完全一致。

Original: https://blog.csdn.net/weixin_41905135/article/details/123016858
Author: Bruce_Liuxiaowei
Title: Scrapy爬虫框架-通过Cookies模拟自动登录

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/698341/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

北京旅游HTML学生网页设计作品 dreamweaver作业静态HTML网页设计模板北京旅游景点网页作业制作 HTML+CSS+JS

👨‍🎓学生HTML静态网页基础水平制作👩‍🎓，页面排版干净简洁。使用HTML+CSS页面布局设计,web大学生网页设计作业源码，这是一个不错的旅游网页制作，画面精明，排版整洁，内容…

人工智能 2023年6月27日
0096
利用opencv实现图像马赛克处理的三种方法

前言：本文就图像的马赛克处理，基于opencv提出了三种解决方案，并详细地介绍了三种方法的原理、示例、问题及问题的解决方案。方法一原理介绍：利用resize()将图片先缩小，再…

人工智能 2023年5月26日
0096
遥感影像语义分割与自然场景语义分割的区别与难点

数据集：自然场景与语义分割对比 (1) 自然图像数据集里面的每幅图像包含的目标很少，但在遥感影像中每幅影像中包含的目标很多；同类目标排列密集，同类目标尺寸变化范围很大、颜色纹理差…

人工智能 2023年6月17日
0091
数据挖掘与分析应用：tableau可视化数据分析，仪表盘，折线图，饼图，条形图，地图，散点图，区域图，表格，数据分析引用

数据挖掘与分析应用：tableau可视化数据分析，仪表盘，折线图，饼图，条形图，地图，散点图，区域图，表格，数据分析引用 2022找工&…

人工智能 2023年6月30日
00103
AVI和WAV文件格式和实例分析

目录一、AVI文件分析二、WAV文件分析 1.WAV格式介绍 2.WAV文件构成（1）各子块格式分析（2）data子块数据分布 3.实例分析一、AVI文件分析通过AVI…

人工智能 2023年5月25日
00192
OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域

OpenCV python（二）图像预处理：改变图像大小 && 提取感兴趣区域一、改变图像大小 * 1、获取图像宽、高、通道数 2、resize函数 3、案例二…

人工智能 2023年7月18日
0042
NLP模型笔记2022-19：知识图谱工具neo4j图数据库的安装与使用

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年6月10日
0081
【学习笔记】《深入浅出Pandas》第6章：Pandas分组聚合

分组聚合非常常见，我们的数据是扁平化的，没有任何分组信息。比如我们一周多次去同一家便利店，每次会产生一条购买记录，便利店要想统计每个人这周的购买情况，就需要以人来进行分组，然后将每…

人工智能 2023年7月8日
0099
数据挖掘-实战记录（二）乳腺癌数据聚类实验及其分析报告

目录一、数据探索 1.数据来源 2.数据描述 3.查看数据 5.研究各特征相互关系二、数据预处理 1.处理缺失值 a)查看缺失值 b）缺失值处理 c）查看处理后的结果 2.查看…

人工智能 2023年6月2日
00311
【Java】String类的理解及字符串常量池

✨系列专栏: 【Java SE】✨一句短话:难在坚持,贵在坚持,成在坚持! 文章目录一. String类简介 * 1. 介绍 2. 字符串构造二. 字符串常量池(StringT…

人工智能 2023年5月30日
00125
DenseNet

paper: Densely Connected Convolutional Networks Memory-Efficient Implementation of DenseNe…

人工智能 2023年7月1日
0096
柯基数据企业知识图谱落地案例分享

从一开始的Google搜索，到现在的聊天机器人、大数据风控、智能医疗、自适应教育、推荐系统，无一不跟知识图谱相关。它在技术领域的热度也在逐年上升。本文通过分享企业知识图谱落地案例，…

人工智能 2023年6月4日
0093
OpenCV-眼睛控制鼠标

找来了一篇好玩的大伙可以试试啊如何用眼睛来控制鼠标？一种基于单一前向视角的机器学习眼睛姿态估计方法。在此项目中，每次单击鼠标时，我们都会编写代码来裁剪你们的眼睛图像。使用这些数…

人工智能 2023年6月29日
0084
图像检测：未有深度学习之前

图像分割所谓图像分割指的是根据灰度，颜色，纹理和形状等特征把图像划分成若干互不交迭的区域，并使这些特征在同一区域内呈现出相似性,而在不同区域间呈现出明显的差异性。经典的数字图像分…

人工智能 2023年6月20日
00110
java计算机毕业设计Web企业差旅在线管理系统源码+mysql数据库+系统+lw文档+部署

本源码技术栈：项目架构：B/S架构开发语言：Java语言开发软件：idea eclipse 前端技术：Layui、HTML、CSS、JS、JQuery等技术后端技术：JAV…

人工智能 2023年6月26日
0066
如何注册Google Voice账号（电话号码）

Google Voice提供了一个免费的美国电话号码，可用于拨打免费电话和发送免费短信。不幸的是，居住在美国以外的人无法使用 GoogleVoice，但请不要担心，因为我们将向您…

人工智能 2023年5月25日
00258

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy爬虫框架-通过Cookies模拟自动登录

1.3.1 在Scrapy中，如果想在Spider(爬虫)文件中直接定义并设置Cookies参数时，可以参考以下示例代码：

1.3.2 通过Cookies模拟自动登录

; 1.3.2.2 在cookieSpider.py文件中编写爬虫代码，代码如下：

1.3.2.3 在middlewares.py文件中，定义用于格式化与设置Cookie的中间件，代码如下：

1.3.2.4 在middlewares.py文件中，定义随机设置请求头的中间件。代码如下：

1.3.2.5 打开settings.py 文件，在该文件中首先将DOWNLOADER_MIDDLEWARES配置信息中的默认配置信息禁用，然后添加用于处理Cookies与随机请求头的配置信息并激活，最后定义从浏览器中获取的Cookies信息，代码如下：

大家都在看