本篇博客为大家说明一下 scrapy 中代理相关知识点。
代理的使用场景
编写爬虫代码的程序员,永远绕不开就是使用代理,在编码过程中,你会碰到如下情形:
- 网络不好,需要代理;
- 目标站点国内访问不了,需要代理;
- 网站封杀了你的 IP,需要代理。
使用 HttpProxyMiddleware 中间件
本次的测试站点依旧使用 http://httpbin.org/
,通过访问 http://httpbin.org/ip 可以获取当前请求的 IP 地址。
HttpProxyMiddleware 中间件默认是开启的,可以查看其源码重点为 process_request()
方法。
修改代理的方式非常简单,只需要在 Requests
请求创建的时候,增加 meta
参数即可。
Original: https://blog.csdn.net/hihell/article/details/121012464
Author: 梦想橡皮擦
Title: python scrapy 代理中间件,爬虫必掌握的内容之一
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/788888/
转载文章受原作者版权保护。转载请注明原作者出处!