【爬虫进阶-JS自动渲染】Scrapy_splash组件的使用

2023年10月3日下午1:08 • Python • 阅读 45

Scrapy_splash组件的使用

1. 什么是scrapy_splash？
2. scrapy_splash的作用
3. scrapy_splash的环境安装
*
3.1 使用splash的docker镜像
–
3.2 在python虚拟环境中安装scrapy-splash包
4. 在scrapy中使用splash
*
4.1 创建项目创建爬虫
4.2 完善settings.py配置文件
4.3 不使用splash
4.4 使用splash
4.5 分别运行俩个爬虫，并观察现象
–
- 4.5.1 分别运行俩个爬虫
- 4.5.2 观察获取的俩个html文件
4.6 结论
5. 了解更多
6. 小结

1. 什么是scrapy_splash？

scrapy_splash是 scrapy的一个组件

scrapy-splash加载js数据是基于Splash来实现的。
Splash是一个Javascript渲染服务。它是一个实现了HTTP API的轻量级浏览器，Splash是用Python和Lua语言实现的，基于Twisted和QT等模块构建。
使用scrapy-splash最终拿到的response相当于是在浏览器全部渲染完成以后的网页源代码。

splash官方文档 https://splash.readthedocs.io/en/stable/

2. scrapy_splash的作用

scrapy-splash能够模拟浏览器加载js，并返回js运行后的数据

3. scrapy_splash的环境安装

3.1 使用splash的docker镜像

splash的dockerfile https://github.com/scrapinghub/splash/blob/master/Dockerfile

观察发现splash依赖环境略微复杂，所以我们可以直接使用splash的docker镜像

如果不使用docker镜像请参考 splash官方文档安装相应的依赖环境

3.1.1 安装并启动docker服务

安装参考 https://blog.csdn.net/sanpic/article/details/81984683

3.1.2 获取splash的镜像

在正确安装docker的基础上pull取splash的镜像

sudo docker pull scrapinghub/splash

3.1.3 验证是否安装成功

运行splash的docker服务，并通过浏览器访问8050端口验证安装是否成功

前台运行 sudo docker run -p 8050:8050 scrapinghub/splash
后台运行 sudo docker run -d -p 8050:8050 scrapinghub/splash

访问 http://127.0.0.1:8050 看到如下截图内容则表示成功

; 3.1.4 解决获取镜像超时:修改docker的镜像源

以ubuntu18.04为例

创建并编辑docker的配置文件

sudo vi /etc/docker/daemon.json

写入国内docker-cn.com的镜像地址配置后保存退出

{
"registry-mirrors": ["https://registry.docker-cn.com"]
}

重启电脑或docker服务后重新获取splash镜像
这时如果还慢，请使用手机热点（流量orz）

3.1.5 关闭splash服务

需要先关闭容器后，再删除容器

sudo docker ps -a
sudo docker stop CONTAINER_ID
sudo docker rm CONTAINER_ID

3.2 在python虚拟环境中安装scrapy-splash包

pip install scrapy-splash

4. 在scrapy中使用splash

以baidu为例

4.1 创建项目创建爬虫

scrapy startproject test_splash
cd test_splash
scrapy genspider no_splash baidu.com
scrapy genspider with_splash baidu.com

4.2 完善settings.py配置文件

在 settings.py文件中添加 splash的配置以及修改 robots协议


SPLASH_URL = 'http://127.0.0.1:8050'

DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

ROBOTSTXT_OBEY = False

4.3 不使用splash

在 spiders/no_splash.py中完善

import scrapy

class NoSplashSpider(scrapy.Spider):
    name = 'no_splash'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com/s?wd=13161933309']

    def parse(self, response):
        with open('no_splash.html', 'w') as f:
            f.write(response.body.decode())

4.4 使用splash

import scrapy
from scrapy_splash import SplashRequest

class WithSplashSpider(scrapy.Spider):
    name = 'with_splash'
    allowed_domains = ['baidu.com']
    start_urls = ['https://www.baidu.com/s?wd=13161933309']

    def start_requests(self):
        yield SplashRequest(self.start_urls[0],
                            callback=self.parse_splash,
                            args={'wait': 10},
                            endpoint='render.html')

    def parse_splash(self, response):
        with open('with_splash.html', 'w') as f:
            f.write(response.body.decode())

4.5 分别运行俩个爬虫，并观察现象

4.5.1 分别运行俩个爬虫

scrapy crawl no_splash
scrapy crawl with_splash

4.5.2 观察获取的俩个html文件

不使用splash

使用splash

; 4.6 结论

splash类似selenium，能够像浏览器一样访问请求对象中的url地址
能够按照该url对应的响应内容依次发送请求
并将多次请求对应的多次响应内容进行渲染
最终返回渲染后的response响应对象

5. 了解更多

关于splash https://www.cnblogs.com/zhangxinqi/p/9279014.html

关于scrapy_splash（截屏，get_cookies等） https://www.e-learn.cn/content/qita/800748

6. 小结

scrapy_splash组件的作用
splash类似selenium，能够像浏览器一样访问请求对象中的url地址
能够按照该url对应的响应内容依次发送请求
并将多次请求对应的多次响应内容进行渲染
最终返回渲染后的response响应对象
scrapy_splash组件的使用
需要splash服务作为支撑
构造的request对象变为splash.SplashRequest
以下载中间件的形式使用
需要scrapy_splash特定配置
scrapy_splash的特定配置

SPLASH_URL = 'http://127.0.0.1:8050'
DOWNLOADER_MIDDLEWARES = {
    'scrapy_splash.SplashCookiesMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}
DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'
HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

Original: https://blog.csdn.net/qq_46092061/article/details/119957841
Author: ZSYL
Title: 【爬虫进阶-JS自动渲染】Scrapy_splash组件的使用

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790263/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

继续集成jenkins+allure+pytest+python邮件发送（报告截图selenium实现）+python钉钉机器人通知

继续集成jenkins+allure+pytest+邮件发送+钉钉机器人通知实现思路报告截图邮箱发送钉钉机器人发送测试结果 jenkins配置运行python钉钉、邮件脚本…

Python 2023年9月10日
0076
MySQL 性能压测工具-sysbench，从入门到自定义测试项

sysbench是一个开源的、基于LuaJIT（LuaJIT 是 Lua 的即时编译器，可将代码直接翻译成机器码，性能比原生 lua 要高）的、可自定义脚本的多线程基准测试工具，…

Python 2023年10月13日
0043
数学规划（Python cvxpy、scipy.optimize）

一、线性规划模型 1.模型结构 ①决策变量，x =（x1,x2,x3…,xn）。 ②目标函数，f(x) ③可行域，，常用一组不等式(约束条件)表示：当目标函数和约束条…

Python 2023年8月26日
0063
scrapy 爬虫系列一、

一、初来乍到-体验安装scrapypip install scrapy安装 twisted依赖pip install pywin32尽量下载和电脑一样的操作系统65win64下载地…

Python 2023年10月6日
0059
10行python代码做出哪些酷炫的事情？

Python凭借其简洁的代码，赢得了许多开发者的喜爱。因此也就促使了更多开发者用Python开发新的模块，从而形成良性循环，Python可以凭借更加简短的代码实现许多有趣的操作。下…

Python 2023年5月24日
0078
networkx 笔记：pagerank

理论部分可参考：李宏毅线性代数笔记 10： PageRank_UQI-LIUWJ的博客-CSDN博客 1 构造图 networkx相关部分可参考：python库整理：network…

Python 2023年8月26日
0049
务必收藏，我珍藏多年的Python奇淫技巧，不看后悔啊~

0x00 emoji如何优雅的在 Python 中使用 emoji 表情，这个库兴许可以满足你的需求。 In [1]: import emoji In [2]: emoji.emo…

Python 2023年8月28日
0079
实验十一 Pandas 库入门与进阶

1. 利用字典 data 和列表 labels 完成以下操作 data = {‘animal’:[‘cat’,’cat&…

Python 2023年8月6日
0054
如何从标准输入读入数据(2) — c++语言

注意：博主将持续更新此文档，直到文尾的输入要考虑的基本问题算法竞赛题目一般会有多个测试用例，采用重定向的方式把数据送给程序。然后观察程序的输出是否和预期的结果一致。多数情况…

Python 2023年6月6日
0087
[Django] ViewDoesNotExist

详细报错类似 Could not import setting.views.types. View does…

Python 2023年6月6日
0087
Python + Django + echarts图表展示

Python + Django + echarts图表展示项目打包文件一、准备工作 ## 1.python环境安装 ## 2.python开发工具PyCharm安装二、创建D…

Python 2023年8月3日
0046
PIAFusion

PIAFusion * – 1. 论文基本信息 – 2. 摘要 – 3. 背景 – + * 现有方法的不足 * 提出新方法 &#82…

Python 2023年10月24日
0039
【一周聚焦】联邦学习 arxiv 3.11-3.18

O. Marfoq, G. Neglia, L. Kameni, and R. Vidal, “Personalized Federated Learning thro…

Python 2023年10月28日
0064
Python 的排序方法 sort 和 sorted 的区别

使用 sort() 或内建函数 sorted() 对列表进行排序。它们之间的区别有两点： sort() 方法是对原列表进行操作，而 sorted() 方法会返回一个新列表，不是在原…

Python 2023年5月24日
00118
办公室文员必备python神器，将PDF文件表格转换成excel表格！

【阅读全文】第三方库说明 PDF读取第三方库 import pdfplumber DataFrame 数据结果处理 import pandas as pd 初始化DataFram…

Python 2023年8月17日
0066
[蓝牙嗅探-Ubertooth One] 千元开源蓝牙抓包 Ubertooth One 安装和使用

前言 1、编译 Ubertooth tools 1.1、准备工作 1.2、编译安装 libbtbb 1.3、编译安装 Ubertooth tools 1.4、Wireshark 插…

Python 2023年6月16日
0098

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31