站点数据收集-Scrapy使用笔记

2023年10月4日下午8:07 • Python • 阅读 54

前言

网站数据收集方法有很多，比如最基础的requests，简单几行就可以获取网页信息。使用selenium模拟网页点击可以绕过很多反爬策略，编写思路也不同于其他的方法。用scrapy框架来做的话可以清楚地进行目标拆分，并利用内置的线程池可以非常高效地获取信息。

本文以scrapy为目标，总结基础的使用方法，以供后续复习。

配置

本地配置好python及pip后，使用 pip install scrapy既可以安装scrapy。

基本使用

新建工程

scrapy在使用时，需要在主机命令行里 scrapy startproject <projectname></projectname>创建一个项目，比如运行 scrapy startproject example后生成example文件夹，内容如图所示。

; 添加目标网站

命令行也会提示进入example目录，并运行scrapy genspider来创建一个spider。比如运行 scrapy genspider example_spider example.com，之后会在spiders文件夹下生成一个example_spider.py文件。爬虫的代码就需要写在这个文件内。

GET请求

import scrapy

class ExampleSpiderSpider(scrapy.Spider):
    name = 'example_spider'
    allowed_domains = ['example.com']
    start_urls = ['http://example.com/']

    def parse(self, response):
        pass

POST请求

import scrapy

class ExampleSpiderSpider(scrapy.Spider):
    name = 'example_spider'
    allowed_domains = ['example.com']
    urls = [
            'https://example.com/page/1/',
            'https://example.com/page/2/',
        ]

    def start_requests(self)：
        for target in urls:

           yield scrapy.FormRequest(
                url=url,
                formdata={'arg1':'xxx','arg2':'xxx'},
                callback=self.parse,
                meta={'arg1':1,'arg2':2}
            )

           yield scrapy.Request(
                url=url,
                method='POST',
                body = json.dumps({'arg1':'xxx','arg2':'xxx'}),
                headers = {'Content-Type':'application/json'},
                callback=self.parse,
                meta={'arg1':1,'arg2':2}
            )

    def parse(self, response):
        pass

需要注意的是：

name 是爬虫名字，即spidername，之后运行需要指定这个名字。
allowed_domains 指定允许爬取的域名，也可以不要。
start_urls指定需要爬取哪些网站，运行时会一个一个向这些网站发请求，并将响应传给parse函数。如果需要动态生成目标网站，可以删掉这个 start_urls变量，并添加一个 start_requests(self)成员函数（需要使用 yield scrapy.Request(url = <targetwebsite>, callback=self.parse)</targetwebsite>作为返回值。爬虫运行时如果发现没有定义 start_urls变量，则会调用这个函数。
scrapy.Request用于发送GET请求。可以添加一个 cb_kwargs参数，它接受一个字典，并可以在 parse(self, response, **kwargs)中通过 kwargs来获取这个字典， 以实现自定义的参数传递。
scrapy.FormRequest用于发送POST请求，请求体放在 formdata中，参数应当都是字符串类型。

这里对官方文档作以修改举例：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'https://quotes.toscrape.com/page/1/',
            'https://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, cb_kwargs={'this_url':url})

    def parse(self, response, **kwargs):
        page = response.url.split("/")[-2]
        url = kwargs['this_url']
        filename = f'quotes-{page}.html'
        with open(filename, 'wb') as f:
            f.write(response.body)
        self.log(f'Saved file {filename}')

启动爬取

在最外层的example目录下运行 scrapy crawl <spidername></spidername>，即可开始爬取。

再以官网文档为例：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"
    start_urls = [
        'https://quotes.toscrape.com/page/1/',
        'https://quotes.toscrape.com/page/2/',
    ]

    def parse(self, response):
        for quote in response.css('div.quote'):
            yield {
                'text': quote.css('span.text::text').get(),
                'author': quote.css('small.author::text').get(),
                'tags': quote.css('div.tags a.tag::text').getall(),
            }

response.css来提取元素，其含义不言自明。也可以通过response.text获取文本信息。

除了get外，也可以使用extract_first、re_first等函数，详见这里

这里的parse函数yield了一个字典，可以在运行时指定保存文件： scrapy crawl <spidername> -O <output.jl></output.jl></spidername>来将其保存到文件中，方便后续处理。jl是jsonline即单行json，可以在python中使用简单的文件逐行遍历配合json来处理。其中 -O表示覆盖输出文件， -o表示在输出文件后追加。可以添加 -L ERROR来忽略运行时无关紧要的输出。

对公开API继续爬取时，jl有奇效。

错误处理

可以在 scrapy.Request与 scrapy.FormRequest函数中添加一个errback参数，来指定一个自定义的error_handling函数，用法类似于callback。

如下所示：

import scrapy

class QuotesSpider(scrapy.Spider):
    name = "quotes"

    def start_requests(self):
        urls = [
            'https://quotes.toscrape.com/page/1/',
            'https://quotes.toscrape.com/page/2/',
        ]
        for url in urls:
            yield scrapy.Request(url=url, callback=self.parse, cb_kwargs={'this_url':url}, errback=self.myerr)

    def myerr(self, failure):
        print(repr(failure))
        print(failure.request.url)
        print(failure.request.cb_kwargs['this_url'])

    def parse(self, response, **kwargs):
        url = kwargs['this_url']

进阶使用

缓存（重要）

可以将项目下的 settings.py里最下面的HTTP_CACHE_XXX启用，来自动将爬下来的数据缓存在本地。当发现xpath写得不对时可以快速更新结果而不用重新请求网站。使用默认的 HTTPCACHE_STORAGE = 'scrapy.extensions.httpcache.FilesystemCacheStorage'时，默认会保存在项目的 .scrapy/<crawler name></crawler>下。之前大致读了下缓存的代码，大致逻辑是根据url、method和body做一个sha1运算，把hexdigest作为请求的hash，哈希前两个十六进制数作为一级目录，完整的hash作为二级目录，每个二级目录下存放meta、pickled_meta、request_body、request_headers、response_body和response_headers等数据。

代理（重要）

有时候爬快了网站会临时ban掉ip，而设置爬取速度不利于大规模爬取（而且有的网站限制会更严格），可以使用代理转发请求。爬国内的网站的话，我自己在用的是快代理的隧道代理，只需要设置下请求的proxy就可以自动切换ip，比较省心。用起来比较稳定（就是有点小贵233），如果有便宜稳定的国内代理欢迎评论！

（没试过它的免费代理不知道可用性如何）

import base64
username = 'xxxxx'
passwd = 'xxxxx'
proxy_ip = 'xxxx.kdltps.com'
proxy_port = '15818'

meta = {'proxy': f'http://{proxy_ip}:{proxy_port}'}
code = base64.b64encode(f'{username}:{passwd}'.encode()).decode()

headers = {
    "Proxy-Authorization": f"Basic {code}",
}
def start_requests(self):
    yield scrapy.Request(
        headers = headers,
        meta = meta,
        )

一些注意事项

有时候可能出现url在预设列表里，却爬不下来的情况，参考1，可能要在setting里添加 SCHEDULER_MEMORY_QUEUE = 'scrapy.squeues.FifoMemoryQueue'

Original: https://blog.csdn.net/weixin_43483799/article/details/126014266
Author: c01dkit
Title: 站点数据收集-Scrapy使用笔记

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791270/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

用python将Mybatis日志中的Preparing与Parameters转换为可执行SQL并且美化格式

一、源代码下载 https://gitee.com/rmtic/SqlLog 说明： 1、可以处理oracle中正则表达中的’?’，解决参数’?…

Python 2023年6月10日
00129
【机器学习】李宏毅——Unsupervised Learning

读这篇文章之间欢迎各位先阅读我之前写过的线性降维的文章。这篇文章应该也是属于Unsupervised Learning的内容的。 Neighbor Embedding Manifo…

Python 2023年10月24日
0033
3-2 Pandas的索引操作

Pandas是一个强大的分析结构化数据的工具集，基于NumPy构建，提供了，它是使Python成为强大而高效的数据分析环境的重要因素之一（1）一个强大的分析和操作大型结构化数…

Python 2023年8月18日
0033
Python3基础语法03|用Pandas来数据处理（1）

1.Pandas是什么 Pandas是Python核心的数据分析库，如果你需要操作数据库，处理数据库表或者excel表，那必然会接触到Pandas这个好帮手啦~ Pandas是N…

Python 2023年8月7日
0058
20212218 实验二《Python程序设计》实验报告

# 20212218 2021-2022-2 《Python程序设计》实验二报告课程：《Python程序设计》班级： 2122 姓名：林思凡学号：20212218 实验教师…

Python 2023年11月9日
0037
Python Django从安装到云平台攻略（四）数据库调用

Setting.py中DATABASES = {‘default’: {‘ENGINE’: ‘django.db.bac…

Python 2023年8月5日
0028
vs2017怎么安装python包没有权限_vs2017怎么安装python第三方包

vs2017有独立的python环境；所以想在vs2017开发python并使用第三方包，需要在vs2017中操作，完成第三方包的安装。一，查看vs2017有哪些版本的pytho…

Python 2023年9月25日
0030
时间序列分析ARMA模型原理及Python statsmodels实践（下）

目录 4. ARMA模型预测销量实践 * 4.1. 统计分析包statsmodels 4.2. 常用函数概述 – 4.2.1. 绘制自相关、偏自相关图 4.2.2. 白…

Python 2023年9月27日
0066
深入浅出matplotlib(69)：显示表格

在matplotlib里，不仅可以显示复杂的图，还可以把表格数据与图一起显示。这样可以把很复杂的数据进行清晰地显示出来。在matplotlib提供了table函数，这个函数定义如…

Python 2023年9月7日
0046
Numpy&pandas基本使用方法(机器学习入门)

目录一、Numpy1.初识ndarray对象(同类型数据的集合)2.创建一个ndarray对象3.数据类型：4.用dtype生成数据类型对象5.创建数组/矩阵①numpy.em…

Python 2023年9月2日
0046
python 千万级数据处理_Python实现 ! 千万级别数据处理

今天分享一个数据清洗小技巧，可以让你在遇到百万、千万级别数据的时候游刃有余。先来说说问题的背景现在有一个 csv 格式的数据集，大概 2千万条左右的样子，存储的是用户的网络交互…

Python 2023年8月8日
0034
数据清洗Chap5——数据转换

数据清洗-Chap 5-dataframe操作 5.1日期格式数据处理 5.2高阶函数数据处理 5.3字符串数据处理 5.1日期格式数据处理 1.Pandas中使用to_datet…

Python 2023年8月16日
0058
Python+大数据-数据分析与处理(六)-综合案例

Python+大数据-数据分析与处理(六)-综合案例案例一：Appstore数据分析学习目标掌握描述性数据分析流程能够使用pandas、seaborn进行数据分析和可视化 …

Python 2023年10月8日
0035
在数据预处理环节用到的方法

常用方法 randIndex = random.sample(range(trainSize, len(trainData_copy)), 5*trainSize) titleSe…

Python 2023年5月25日
0076
BERTopic：NLP主题模型的未来！

文| ZenMoore编| 小轶以前我一直以为，主题建模(提取文档的主题词)这种机器学习时代就开始研究的基础工具，现在肯定已经到头了，虽然…有时效果可能不是那么让人满…

Python 2023年10月8日
0072
Python工具箱系列(十五)

借助于标准库configparser来访问ini文件；使用标准库dbm访问键值数据库。 configparser访问配置信息使用历史悠久的INI文件格式来描述，文件内容如下所示…

Python 2023年10月30日
0023

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30