- 第一步:下载并安装python3.9
- 第二步:下载并安装Anaconda
- 第三步:安装scrapy(安装也可通过:pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
)
conda install -c conda-forge scrapy
- 如果第三步scrapy安装不了请看安装scrapy失败CondaHTTPError: HTTP 000 CONNECTION FAILED for url <https://conda.anaconda.o_与市场搏斗-CSDN博客修改Anaconda镜像源conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config –set show_channel_urls yes此时在C:\Users\Administrator(这里是电脑用户名)下就会生成配置文件.condarcchannels: – https://mirrors.tuna.tsinghua.edu.cn/anaco https://blog.csdn.net/wenxingchen/article/details/120161236 ;
- 第四步:创建项目::新建一个文件夹作为存放项目的空间在并黑窗口cd到该文件夹下
scrapy startproject 项目名称
- 第五步:创建一个爬虫::在项目根路径下:(建议去掉限制域,他过滤掉很多url…会出现parse不生效的假象)
scrapy genspider 爬虫名称 要爬取的限制域
- 第六步:启动爬虫:
scrapy crawl 爬虫名称
* 第七步:调试爬虫:在根路径下新建文件main.py,内容如下:修改一下爬虫名称即可
from scrapy.cmdline import execute
import os
import sys
if __name__ == '__main__':
sys.path.append(os.path.dirname(os.path.abspath(__file__)))
execute(['scrapy', 'crawl', '爬虫名称'])
- 第八步:IP代理中间件:打开middlewares.py文件添加一个中间件
配置IP代理
class ProxyMiddleware(object):
def process_request(self, request, spider):
request.meta['proxy'] = get_proxy_ip_free() #这是我封装好的一个工具,该方法能获取代理IP和端口
import urllib.request
import json
import requests
阿里云IP代理
def get_proxy_ip():
host = 'http://zip.market.alicloudapi.com'
path = '/devtoolservice/ipagency'
method = 'GET'
appcode = 'sdfasdfsdfsdfsdfsdffd'
querys = 'foreigntype=0&protocol=0'
bodys = {}
url = host + path + '?' + querys
request = urllib.request.Request(url)
request.add_header('Authorization', 'APPCODE ' + "dfgcccccfgdfg2dfgg")
response = urllib.request.urlopen(request)
content = response.read()
if (content):
load = json.loads(str(content, encoding='utf8'))
address_ = load['result'][0]['address']
return address_
自己搭建的代理服务器
def get_proxy_ip_free():
json_result = requests.get("http://xxx.xxx.xxx.xxx:8080/get/").json()
return 'http://' + json_result['proxy']
打开settings.py文件开启中间件即可生效.
- 第九步:UserAgent中间件:采用了fake_useragent库
pip install fake-useragent
pip install -U fake-useragent
打开middlewares.py文件,配置代理如下
from fake_useragent import UserAgent
location = r"D:\biantu\biantuscrapy\biantuscrapy\spiders\fake_useragent_0.1.11.json" #配置成刚刚copy的地址
配置headers
class RandomUserAgentMidddlware(object):
# 随机更换user-agent
def __init__(self, crawler):
super(RandomUserAgentMidddlware, self).__init__()
self.ua = UserAgent(path=location)
# 从配置文件读取随机类型
self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')
@classmethod
def from_crawler(cls, crawler):
return cls(crawler)
def process_request(self, request, spider):
# 通过配置文件的随机类型进行调用
def get_ua():
return getattr(self.ua, self.ua_type)
request.headers.setdefault('User-Agent', get_ua())
打开settings.py文件开启中间件即可生效.
第十步:捕获ajax请求:安装selenium
Original: https://blog.csdn.net/wenxingchen/article/details/118876695
Author: 苍穹之跃
Title: 快速构建Scrapy项目脚手架
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/789524/
转载文章受原作者版权保护。转载请注明原作者出处!