快速构建Scrapy项目脚手架

2023年10月2日下午2:37 • Python • 阅读 45

第一步：下载并安装python3.9
第二步：下载并安装Anaconda
第三步：安装scrapy（安装也可通过：pip install scrapy -i https://pypi.tuna.tsinghua.edu.cn/simple
）

conda install -c conda-forge scrapy

如果第三步scrapy安装不了请看安装scrapy失败CondaHTTPError: HTTP 000 CONNECTION FAILED for url ＜https://conda.anaconda.o_与市场搏斗-CSDN博客修改Anaconda镜像源conda config –add channels https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/free/conda config –set show_channel_urls yes此时在C:\Users\Administrator（这里是电脑用户名）下就会生成配置文件.condarcchannels: – https://mirrors.tuna.tsinghua.edu.cn/anaco https://blog.csdn.net/wenxingchen/article/details/120161236 ;
第四步：创建项目::新建一个文件夹作为存放项目的空间在并黑窗口cd到该文件夹下

scrapy startproject &#x9879;&#x76EE;&#x540D;&#x79F0;

第五步:创建一个爬虫::在项目根路径下:(建议去掉限制域,他过滤掉很多url…会出现parse不生效的假象)

scrapy genspider &#x722C;&#x866B;&#x540D;&#x79F0; &#x8981;&#x722C;&#x53D6;&#x7684;&#x9650;&#x5236;&#x57DF;

第六步:启动爬虫:

scrapy crawl &#x722C;&#x866B;&#x540D;&#x79F0;

* 第七步:调试爬虫:在根路径下新建文件main.py，内容如下：修改一下爬虫名称即可

from scrapy.cmdline import execute
import os
import sys

if __name__ == '__main__':
    sys.path.append(os.path.dirname(os.path.abspath(__file__)))
    execute(['scrapy', 'crawl', '&#x722C;&#x866B;&#x540D;&#x79F0;'])

第八步:IP代理中间件:打开middlewares.py文件添加一个中间件

&#x914D;&#x7F6E;IP&#x4EE3;&#x7406;
class ProxyMiddleware(object):
    def process_request(self, request, spider):
        request.meta['proxy'] = get_proxy_ip_free() #&#x8FD9;&#x662F;&#x6211;&#x5C01;&#x88C5;&#x597D;&#x7684;&#x4E00;&#x4E2A;&#x5DE5;&#x5177;,&#x8BE5;&#x65B9;&#x6CD5;&#x80FD;&#x83B7;&#x53D6;&#x4EE3;&#x7406;IP&#x548C;&#x7AEF;&#x53E3;

import urllib.request
import json
import requests

&#x963F;&#x91CC;&#x4E91;IP&#x4EE3;&#x7406;
def get_proxy_ip():
    host = 'http://zip.market.alicloudapi.com'
    path = '/devtoolservice/ipagency'
    method = 'GET'
    appcode = 'sdfasdfsdfsdfsdfsdffd'
    querys = 'foreigntype=0&protocol=0'
    bodys = {}
    url = host + path + '?' + querys

    request = urllib.request.Request(url)
    request.add_header('Authorization', 'APPCODE ' + "dfgcccccfgdfg2dfgg")
    response = urllib.request.urlopen(request)
    content = response.read()
    if (content):
        load = json.loads(str(content, encoding='utf8'))
        address_ = load['result'][0]['address']
        return address_

&#x81EA;&#x5DF1;&#x642D;&#x5EFA;&#x7684;&#x4EE3;&#x7406;&#x670D;&#x52A1;&#x5668;
def get_proxy_ip_free():
    json_result = requests.get("http://xxx.xxx.xxx.xxx:8080/get/").json()
    return 'http://' + json_result['proxy']

打开settings.py文件开启中间件即可生效.

第九步:UserAgent中间件:采用了fake_useragent库

pip install fake-useragent

pip install -U fake-useragent

打开middlewares.py文件,配置代理如下

from fake_useragent import UserAgent

location = r"D:\biantu\biantuscrapy\biantuscrapy\spiders\fake_useragent_0.1.11.json" #&#x914D;&#x7F6E;&#x6210;&#x521A;&#x521A;copy&#x7684;&#x5730;&#x5740;

&#x914D;&#x7F6E;headers
class RandomUserAgentMidddlware(object):
    # &#x968F;&#x673A;&#x66F4;&#x6362;user-agent
    def __init__(self, crawler):
        super(RandomUserAgentMidddlware, self).__init__()

        self.ua = UserAgent(path=location)
        # &#x4ECE;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x8BFB;&#x53D6;&#x968F;&#x673A;&#x7C7B;&#x578B;
        self.ua_type = crawler.settings.get('RANDOM_UA_TYPE', 'random')

    @classmethod
    def from_crawler(cls, crawler):
        return cls(crawler)

    def process_request(self, request, spider):
        # &#x901A;&#x8FC7;&#x914D;&#x7F6E;&#x6587;&#x4EF6;&#x7684;&#x968F;&#x673A;&#x7C7B;&#x578B;&#x8FDB;&#x884C;&#x8C03;&#x7528;
        def get_ua():
            return getattr(self.ua, self.ua_type)

        request.headers.setdefault('User-Agent', get_ua())

打开settings.py文件开启中间件即可生效.

第十步:捕获ajax请求:安装selenium

Original: https://blog.csdn.net/wenxingchen/article/details/118876695
Author: 苍穹之跃
Title: 快速构建Scrapy项目脚手架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789524/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python-函数-def语句

hello，大家好，我又来啦！今天我们学习一下什是Python函数！准备： Python版本不限好啦，让我们开始吧！大家知道吗，其实在Python中只要有小括号的都能算是函…

Python 2023年9月24日
0047
Python外星人入侵代码小测试

Python 外星人入侵代码小测试最近学习Python期间闲来无事，在Python外星人入侵的代码上尝试一点小测试，增加了飞船前进后退以及外星人随机产生并且在到达底部后刷新的代码…

Python 2023年9月23日
0042
python面向对象

一、类和对象 1、万物皆对象 2、对象：用来描述客观事物的一个实体，由一组属性和方法构成 3、属性：对象具有的各种特征，每个对象的每个属性都有特定值 4、方法：对象执行的操作…

Python 2023年6月6日
0041
为什么说L2毫秒接口的应用比较广泛?

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年10月10日
0023
Dapr实现.Net Grpc服务之间的发布和订阅，并采用WebApi类似的事件订阅方式

大家好，我是失业在家，正在找工作的博主Jerry，找工作之余，总结和整理以前的项目经验，动手写了个洋葱架构（整洁架构）示例解决方案 OnionArch。其目的是为了更好的实现基于D…

Python 2023年10月17日
0035
复习的时间安排篇（参考）

考研全年具体流程准备阶段：大三上学期，搜集考研信息和资料，确定好报考的专业和学校基础阶段：3月-5月，开启第一轮复习，打基础知识框架，主要复习英语数学专业课提高阶段：6月-8月，…

Python 2023年6月11日
0068
Python数据可视化

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月30日
0037
pandas.DataFrame.apply，DataFrame.applymap，Series.map

我们想在 DataFrame 的每行或者每列上都执行某个函数，可以使用 DataFrame 的 apply 方法。例如，我们想计算下面 DataFrame 每列的最大值最小值之差…

Python 2023年8月17日
0032
dataframe 列去重_Pandas —— （6）多个DataFrame的合并、连接、去重、替换

@pd.merge(left, right, how=’inner’, on=None, left_on=None, right_on=None,left_…

Python 2023年8月18日
0067
网易云VIP歌曲没权限？还好我会Python，一分钟一个歌单，硬盘有点不够用了~

人生苦短，我用Python 人之初，喜白嫖。大家都喜欢白嫖，我也喜欢，那么今天就来试试怎么白嫖抑云~ 我不是，我没有，别瞎说~ ; 一、你需要准备 1、环境 Python3.6以上…

Python 2023年10月31日
00113
python 基金净值_基金净值爬取_Python，自给自足

Wind账号被停，优矿试用期到期，Tushare开启积分模式，基金数据来源只能开启自给自足模式。参考《Python爬取天天基金网历史净值数据》，自己动手尝试。天天基金网API …

Python 2023年8月19日
0043
‘Tensor‘ object has no attribute ‘np‘

import numpy as np a(a是一个Tensor，懒得写定义句) a=a.np() pytorch出现报错’Tensor’ object ha…

Python 2023年8月24日
0050
云原生向量数据库Milvus（一）-简述、系统架构及应用场景

什么是Milvus Milvus 是一款云原生向量数据库，它具备高可用、高性能、易拓展的特点，用于海量向量数据的实时召回。 Milvus 基于 FAISS、Annoy、HNSW 等…

Python 2023年8月3日
0041
SpringBoot自定义注解+异步+观察者模式实现业务日志保存

一、前言我们在企业级的开发中，必不可少的是对日志的记录，实现有很多种方式，常见的就是基于 AOP+注解进行保存，但是考虑到程序的流畅和…

Python 2023年10月17日
0067
pytest-html测试报告

1、安装类库： pytest-html 2、生成默认html报告：pytest –html=报告名称.html 3、执行指定文件生成测试报告：在指定运行脚本下方输入 i…

Python 2023年9月10日
0050
Python(九)使用pylot做高并发测试

前言本章主要讲述运用pylot对接口进行高并发压力测试，比Jmeter做起来更快前置环境 python 2.5 pylot 1.26 numpy 2.5 Matplotlib …

Python 2023年9月5日
0041

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

快速构建Scrapy项目脚手架

大家都在看