【python大神之路】scrapy的中间件使用流程

2023年10月4日上午9:42 • Python • 阅读 37

首先我们要知道scrapy的基本数据流向

scrapy 数据的基本流向

那个十字框架图我就不画了，数据处理是这样的：
spider -> 引擎-> 调度器 -> requests -> download下载器-> spider -> 引擎 -> pipline
spider指定url，给引擎，引擎让到调度器根据url生成request，丢给下载器；下载器生成response返回数据，数据再经过引擎丢给spider处理；处理完的数据需要保存，在由引擎丢给pipline，保存数据。

scrapy 设置代理

scrapy 设置免费代理

通常，如果不希望自己的ip被人察觉，我们也希望使用代理地址，去请求服务器。有许多免费网站提供免费ip。我们只需要写个中间件，拦截请求接口，给request对象设置proxy ip即可。

做法如下：

&#x514D;&#x8D39;&#x4EE3;&#x7406;
 class ProxyDownloaderMiddleware:
     def process_request(self, request, spider):
         ip = choice(PROXY_IP_LIST)
         request.meta['proxy'] = "https://" + ip
         return None  # &#x653E;&#x884C;

免费的ip未必好用，有时候会失效，所以有些公司提供人民币玩法，充钱就能变强，这里我们用 快代理 网站，只需要再写个中间件：

class MoneyProxyDownloaderMiddleware:

    def process_request(self, request, spider):
        proxy = "tps138.kdlapi.com:15818"
        request.meta['proxy'] = f"http://{proxy}"

        request.headers['Proxy-Authorization'] = basic_auth_header('username', 'password')
        request.headers["Connection"] = "close"

然后像上面免费版在 settings.py 里配置该中间件即可。

到此，我们讲完了 scrapy 的中间件作用，写法，配置。

最后在命令运行：

scrapy crawl 爬虫名

就可以跑起来我们刚才写的各种中间件了。

Original: https://blog.csdn.net/cdkd123/article/details/127562772
Author: toom_dp2px
Title: 【python大神之路】scrapy的中间件使用流程

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790933/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

今天面了个阿里拿27k出来的小哥，让我见识到了什么是天花板

2022年堪称大学生就业最难的一年，应届毕业生人数是1076万。失业率超50%！但是我观察到一个数据，那就是已经就业的毕业生中，计算机通信等行业最受毕业生欢迎！计算机IT行业薪资…

Python 2023年9月27日
0031
Python 数据分析之Numpy

Python有着大量功能强大的第三方库。这些第三方库可以大大地扩充Python的功能，我们在实际使用中往往也离不开这些第三方库。 NumPy是Python的一种开源的数值计算扩展。…

Python 2023年8月25日
0027
Android开发中的线程池使用

一、前言既然Android中已经有了线程的概念，那么为什么需要使用线程池呢？我们从两个方面给出使用线程池的原因。首先线程的新建和销毁都是存在性能上的消耗的，如果一个时间段有大量…

Python 2023年9月29日
0055
python-pygame小游戏之五子棋

大家好，今天我要为大家带来一个pygame小游戏——五子棋！还是推荐你看看之前的三篇温馨提醒：没有安装过pygame模块的人们，尤其是新人，没有安装过pygame模块的需要（…

Python 2023年9月17日
0036
PyQt5-QImage、QPixmap、Opencv与QLabel、Matplotlib的互动

文章目录前言一、转换 * 1.1 Opencv_to_QPixmap 1.2 QImage_to_QPixmap 1.3 QPixmap_to_Opencv 1.4 QImag…

Python 2023年9月4日
0065
面试官：什么是伪共享，如何避免？

theme: jzman 本文已收录到GitHub · AndroidFamily ，有 Android 进阶知识体系，欢迎 Star。技术和职场问题，请关注公众号 [彭旭锐] 私…

Python 2023年10月14日
0049
python3 操作excel

Python 2023年5月24日
0075
python游戏引擎开发二_python制作galgame引擎（二）

上一篇主要涉及的其实是我个人的一些初期目标，以及解决方式。虽然提了提Parser类的实现，但是代码毕竟不是主要讨论的对象。而且很明显的，上一篇几乎与galgame制作无关&#823…

Python 2023年9月23日
0039
十二届蓝桥杯Scratch国赛试题

选择题 1. 选择题1 以上三个程序，芭蕾舞女孩不会呈现出第几个造型效果? ()A1 B2 C3 D4 ; 2. 选择题2 3. 选择题3 ; 4. 编程题4 5. 选择题5 ; …

Python 2023年9月18日
0037
脑影像分析|数据分析——单个变量或多个变量与y的皮尔逊相关，同时返回r与p值（python）

| 图源皮尔逊相关是计算两个变量之间线性相关关系，或者两个向量共线程度的常用指标，应返回衡量相关程度的r值，和相关显著程度的p值。我们熟知的工具包，如pandas，numpy和s…

Python 2023年8月27日
0054
有趣的网站分享——福音戰士標題生成器

说起文字标题生成器其实也是有一定的历史了。他们往往源于某种媒介所带来的个性化标题的出现（比如动画或电影、广告、产品Logo等）。被互联网群众察觉分享后在模因传播的现象下深入人心…

Python 2023年10月8日
0079
Python疫情实时可视化（Flask）

背景：学校选修课的大作业，参考了一下b站视频：BV177411j7qJ 技术栈：后端Flask+selenium+pyecharts 前端：html+css+js，想着数据更新略频…

Python 2023年8月10日
0048
【项目实战】基于Python实现xgboost回归模型(XGBRegressor)项目实战

说明：这是一个机器学习实战项目（附带数据+代码+文档+代码讲解），如需数据+代码+文档+代码讲解可以直接到文章最后获取。 1.项目背景随着大数据时代的到来，具备大数据思想至关…

Python 2023年8月1日
0072
基于Flask框架下的学生管理系统，可实现图表统计、用户登录、对学生成绩以及个人信息进行增删改查

一. 项目功能概述本次项目使用Python语言编写的Flask框架下的web应用。主要用到的技术有MySQL、HTML前端以及Flask框架。该项目的主要功能有实现管理员的登录、…

Python 2023年8月9日
0058
Matplotlib进阶教程：工具包

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。今天来给大家介绍下Matplotlib系列的最后一篇教程：三个工具包的介绍。今天的课程结束后，这个系列…

Python 2023年9月5日
0047
人脑能否重启？

1.重启是什么 ” 人脑能否重启“这个问题还不简单，人睡眠后清醒就是重启。事实真的是如此简单吗？我们先不急着给出结论，前面提到” 人睡眠后清…

Python 2023年9月29日
0036

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

【python大神之路】scrapy的中间件使用流程

scrapy 数据的基本流向

scrapy 设置代理

大家都在看