scrapy python proxy unsolved_python爬虫之Scrapy 使用代理配置

2023年10月6日下午7:58 • Python • 阅读 28

在爬取网站内容的时候，最常遇到的问题是：网站对IP有限制，会有防抓取功能，最好的办法就是IP轮换抓取(加代理)

下面内容分作两部分第一部分来自网络，第二部分写的使用大蚂蚁代理的代码

#####################第一部分

下面来说一下Scrapy如何配置代理，进行抓取

1.在Scrapy工程下新建”middlewares.py”

Importing base64 library because we’ll need it ONLY in case if the proxy we are going to use requires authentication

import base64

Start your middleware class

class ProxyMiddleware(object):

overwrite process request

def process_request(self, request, spider):

Set the location of the proxy

request.meta[‘proxy’]= “http://YOUR_PROXY_IP:PORT”

Use the following lines if your proxy requires authentication

proxy_user_pass= “USERNAME:PASSWORD”

setup basic authentication for the proxy

encoded_user_pass= base64.encodestring(proxy_user_pass)

request.headers[‘Proxy-Authorization’]= ‘Basic ‘ + encoded_user_pass

2.在项目配置文件里(./pythontab/settings.py)添加

DOWNLOADER_MIDDLEWARES= {

‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware’:110,

‘pythontab.middlewares.ProxyMiddleware’:100,

######################第二部分

import hashlib

import time

Start your middleware class

class ProxyMiddleware(object):

overwrite process request

def process_request(self, request, spider):

Set the location of the proxy

request.meta[‘proxy’] = “http://代理地址：端口”

appkey=”your app key”

secret=”your sercret num string”

paramMap = {“app_key”: appkey,”timestamp”: time.strftime(“%Y-%m-%d %H:%M:%S”)}

keys = paramMap.keys()

keys.sort()

codes= “%s%s%s” % (secret,str().join(‘%s%s’ % (key, paramMap[key]) for key in keys),secret)

sign = hashlib.md5(codes).hexdigest().upper()

paramMap[“sign”] = sign

keys = paramMap.keys()

authHeader = “MYH-AUTH-MD5 ” + str(‘&’).join(‘%s=%s’ % (key, paramMap[key]) for key in keys)

request.headers[‘Proxy-Authorization’] = authHeader

print authHeader

DOWNLOADER_MIDDLEWARES = {

‘scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware’: 110,

‘yourproject.middlewares.ProxyMiddleware’: 100,

Original: https://blog.csdn.net/weixin_39946767/article/details/113540027
Author: weixin_39946767
Title: scrapy python proxy unsolved_python爬虫之Scrapy 使用代理配置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792816/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Dubbo 原理和机制详解 (非常全面)

Dubbo 是一款Java RPC框架，致力于提供高性能的 RPC 远程服务调用方案。作为主流的微服务框架之一， Dubbo 为开发人员带来了非常多的便利。大家好，我是 mike…

Python 2023年10月18日
0042
Flask 核心技术 – WTF表单、上下文、表单验证、蓝图

request request 就是flask中代表当前请求的 request 对象，其中一个请求上下文变量(理解成全局变量，在视图函数中直接使用可以取到当前本次请求) 常用的属性…

Python 2023年8月13日
0042
【django入门】 04 初探GET/POST 设计登录页面

django入门 04 初探GET/POST 设计登录页面理解GET请求/POST请求（大写的GET，大写的POST）简单来说，GET就是输入网址访问（可依靠网址显式传递参数…

Python 2023年6月15日
0051
JS新年倒计时

✅作者简介：热爱国学的Java后端开发者，修心和技术同步精进。🍎个人主页：Java Fans的博客🍊个人信条：不迁怒，不贰过。小知识，大智慧。💞当前专栏：前端案例分享专栏✨特色专栏…

Python 2023年9月15日
0028
计算机底层一些东西

首先我们知道计算机是不懂文字的，那我们怎们让它明白文字并执行我们的指令呢？一、计算机底层怎么去表示信息计算机中的晶体管通过大电流和小电流可以表示两种状态，就好像一个开关一样，假…

Python 2023年6月9日
0063
python web框架基础

文章目录 * – 1. Web框架简介 – + 1.1 MVC + 1.2 模板引擎 – 2. 常用 Python Web 框架 –…

Python 2023年8月11日
0059
scrapy爬虫项目的建立

文章目录前言一、什么是爬虫？二、什么是scrapy 三、新建一个scrapy项目四、各模块的作用 * 4.1 item.py 4.2 pipelines.py 4.3 qk…

Python 2023年10月2日
0039
什么是 Web 3.0？（新手入门指南）

Web 3.0 的定义 Web 3.0（或更常见的拼写方式为 web3）没有被广泛接受的定义。不同的人对这个词提出了不同的想法。最初，Web 3.0 指的是所谓的”语…

Python 2023年10月9日
0054
pytest（一）–安装和入门

参考官网：https://docs.pytest.org/en/latest/getting-started.html ，https://docs.pytest.org/en/la…

Python 2023年9月15日
0075
python: 开始使用tensorflow 出现的一些问题即解决办法

python 用了快一年了，想试用一下tensorflow, 了解一下深度学习(deep learning), 但是与其他的模块不同， tensorflow用起来并不容易，或许…

Python 2023年8月2日
0055
Python读写excel文件

1 、使用 pandas 库读取 Excel —– 最常用 pandas 可以读取各种各样格式的数据文件，一般输出dataframe 格式。如：txt 、…

Python 2023年8月21日
0075
技巧大集合，熬夜总结53个Python使用技巧和攻击方法

本节对一些Python重整的操作进行对比。 <span class="hljs-string">随机&a…

Python 2023年5月24日
0055
python tkinter详解

PYTHON TKINTER Tkinter 模块(Tk 接口)是 Python 的标准 Tk GUI 工具包的接口 .Tk 和 Tkinter 可以在大多数的平台下使用,同样可以…

Python 2023年8月1日
0069
python包–pandas的用法（最全pandas的用法–数据处理十分有用，后面会一直更新）

文章目录 * – 1. pandas简介 – 2. pandas 用法 – + 2.1 pandas的数据格式 + 2.2 数据的导入和自生成数…

Python 2023年8月19日
0043
【物联网面试题】数组中的常见问题

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月24日
0040
3-全功能pytest测试框架

全功能pytest测试框架一：全功能pytest测试框架 * 1> pytest测试框架简介 2> 插件的安装及库的导入 3> pytest配置 –…

Python 2023年9月14日
0046

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

scrapy python proxy unsolved_python爬虫之Scrapy 使用代理配置

#####################第一部分

######################第二部分

print authHeader

大家都在看