利用scrapy+splash+redis实现对JS动态生成网页的增量爬取

2023年10月1日上午7:34 • Python • 阅读 63

文章目录

一、任务内容
二、Scrapy安装、配置、调试
三、splash安装、配置、调试
*
开启hyper-v
安装Docker Desktop
拉取和开启Splash
安装scrapy-splash包
配置scrapy-splash环境
四、Mysql和redis安装、配置、调试
*
创建数据库
安装pymysql和redis包
四、源代码
*
setting.py
items.py
hdACT.py
pipelines.py
五、运行爬虫

一、任务内容

利用Srapy框架爬取广州图书馆的活动信息，网址为：http://www.gzlib.org.cn/hdActForecast/index.jhtml，该页面是一个活动信息列表，分页显示，每页15条，由JS代码动态生成，点击下一页后页面地址不会发生变化。每一条活动信息都是一个超链接，对应一个唯一的URL，点击后打开一个新的网址，显示该活动信息的详细信息。因此，利用splash作为JS引擎，从而获得渲染后的页面，并模拟点击下一页的动作，获得所有的活动信息。爬取的活动信息保存在Mysql数据库中。
广图会不定期更新活动信息，每隔一天运行一次爬虫程序，但Scrapy会对所有信息重新爬取一遍，包括前一次已经爬取的信息，因此，利用redis内存数据库保存已经爬取的活动信息URL，每次爬取时跳过已经爬取的URL，只对新增的活动信息进行爬取。

二、Scrapy安装、配置、调试

安装Anaconda，在cmd窗口输入：conda install scrapy ，输入y回车表示允许安装依赖库，安装完成后输入scrapy，如果显示如下，则表示安装成功。

在pycharm的工程目录下创建文件夹scrapy，在终端输入指令：

cd scrapy
scrapy startproject gzlib
cd gzlib
scrapy genspider hdACT  www.gzlib.org.cn

scrapy startproject gzlib是创建gzlib项目的命令，scrapy genspider hdACT www.gzlib.org.cn是创建hdACT 爬虫的命令。完成后目录结构如下图所示：

这里需要关注的是hdACT.py文件（爬虫文件），items.py文件（定义需要Pipeline处理的元素），middlewares.py文件（定义spider中间件和downloader中间件），settings.py文件（配置文件）。

三、splash安装、配置、调试

由于爬取的目标网页内容是由JS动态渲染，必须配合JS引擎对网页上的js脚本进行渲染，获得渲染后的页面，这里选择splash作为JS引擎。
安装splash主要的问题是安装Docker，由于我使用的是win10 home版，已经安装了WSL2，并安装了Ubuntu虚拟机（安装方法请自行百度），只需要打开hyper-v虚拟化功能，主要参考了这篇文章

开启hyper-v

把以下的命令保存在一个txt文件中，然后重命名为.cmd文件，最后以管理员身份运行该文件。

pushd '%~dp0'
dir /b %SystemRoot%\servicing\Packages\*Hyper-V*.mum >hyper-v.txt
for /f %%i in ('findstr /i . hyper-v.txt 2^>nul') do dism /online /norestart /add-package:'%SystemRoot%\servicing\Packages\%%i'
del hyper-v.txt
Dism /online /enable-feature /featurename:Microsoft-Hyper-V-All /LimitAccess /ALL

运行过程中会出现百分比，如果运行成功不关闭的话可能会一遍遍运行，当你看到运行成功即可关闭该文件，然后重启电脑就可以拥有完整的Hyper-V选项了。

安装Docker Desktop

从https://www.docker.com/get-docker下载Docker desktop 安装包，直接安装即可。

拉取和开启Splash

在命令行界面输入：

docker pull scrapinghub/splash

拉取splash，完成后，输入：

docker run -p 8050:8050 scrapinghub/splash

完成后，双击桌面上Docker的小鲸鱼图标，启动Docker界面：

点击Open in browser按钮，可在浏览器中看到如下界面，说明安装成功。

安装scrapy-splash包

要在Scrapy中使用splash需要安装scrapy-splash包，在命令行中执行如下命令。

pip install scrapy-splash

配置scrapy-splash环境

在项目配置文件settings.py中，需要配置scrapy-splash，配置内容如下：


SPLASH_URL = 'http://localhost:8050'

DUPEFILTER_CLASS = 'scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE = 'scrapy_splash.SplashAwareFSCacheStorage'

DOWNLOAD_MIDDLEWARES = {

    'scrapy_splash.SplashCookieMiddleware': 723,
    'scrapy_splash.SplashMiddleware': 725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware': 810,
}

四、Mysql和redis安装、配置、调试

从https://dev.mysql.com/downloads/mysql/下载最新版mysql安装程序mysql-installer-community-8.0.28.0.msi，进行安装。
从https://github.com/tporadowski/redis/releases下载最新版的redis安装程序Redis-x64-3.0.504.msi，进行安装。

创建数据库

mysql安装好以后，打开MySql Workbench创建数据库，如下图所示：

redis安装好后，可以自行下载RedisDesktopManager工具，对redis进行管理。如下图：

; 安装pymysql和redis包

要在python中使用mysql和redis需要相应的包支持，由于我已经安装了anaconda，通过一下命令安装这两个包：

conda install pymysql
conda install redis

四、源代码

setting.py


import scrapy.pipelines.images

BOT_NAME = 'gzlib'
SPIDER_MODULES = ['gzlib.spiders']
NEWSPIDER_MODULE = 'gzlib.spiders'

USER_AGENT = 'Mozilla/5.0(Windows NT6.1;Win64;x64) AppleWebKit/537.36(KHTML,like Gecko) Chrome/78.0.3904.87 Safari/537.36'
ROBOTSTXT_OBEY = False
DOWNLOAD_DELAY = 0.5
DEFAULT_REQUEST_HEADERS = {
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
  'User-Agent':'Mozilla/5.0(Windows NT 10.0;Win64;x64) AppleWebKit/537.36(KHTML,like Gecko) Chrome/94.0.4606.71 Safari/537.36'
}
ITEM_PIPELINES = {
    'gzlib.pipelines.GzlibPipeline': 300,
    'gzlib.pipelines.GzlibImgPipeline': 1,
}

IMAGES_STORE = 'images'

SPLASH_URL='http://localhost:8050'

DOWNLOADER_MIDDLEWARES={
    'scrapy_splash.SplashCookiesMiddleware':723,
    'scrapy_splash.SplashMiddleware':725,
    'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware':810,

}

DUPEFILTER_CLASS='scrapy_splash.SplashAwareDupeFilter'

HTTPCACHE_STORAGE='scrapy_splash.SplashAwareFSCacheStorage'

items.py

import scrapy
class GzlibItem(scrapy.Item):
    name= scrapy.Field()
    time=scrapy.Field()
    imgsrc=scrapy.Field()
    detail_url=scrapy.Field()
    detail_outline=scrapy.Field()
    detail_content=scrapy.Field()
    pass

hdACT.py

import scrapy
from ..items import GzlibItem
import urllib

from scrapy_splash import SplashRequest
import pymysql
import pandas as pd
import redis

class HdactSpider(scrapy.Spider):
    name = 'hdACT'
    allowed_domains = ['www.gzlib.org.cn', 'action.gzlib.org.cn']
    start_urls = ['http://www.gzlib.org.cn/hdActForecast/index.jhtml']
    next = False
    redis_db = redis.Redis(host='127.0.0.1', port=6379, db=4)
    redis_data_dict = "f_url"
    connect = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='wjcumt790625',
                              database='scrapy_db', charset='utf8')
    cursor = connect.cursor()

    next_lua = """
        function main(splash, args)
          assert(splash:go(args.url))
          splash:wait(10)
          nxtPage=splash:runjs(args.script)
          splash:wait(10)
          return splash:html()
        end
"""
    def __init__(self):
        if self.redis_db.hlen(self.redis_data_dict) != 0:
            self.redis_db.flushdb()
        sql = "SELECT url FROM gzlibact_tb;"
        df = pd.read_sql(sql, self.connect)
        for url in df['url'].values:
            self.redis_db.hset(self.redis_data_dict, url, 0)
        self.connect.close()

    def start_requests(self):
        for url in self.start_urls:
            yield SplashRequest(url,
                                callback=self.parse_splash_actList,
                                args={'wait': 10},
                                endpoint='render.html'
                                )

    def parse_splash_actList(self, response):
        act_names = response.xpath("//div[@class='yg-detail']/div[@class='yg2-info']/a/h3/text()").extract()
        act_times = response.xpath("//div[@class='yg-detail']/div[@class='yg2-info']/p/text()").extract()
        act_detail_urls = response.xpath("//*[@id='actForecast']/li/div/div/a/@href").extract()
        act_imgsrc=response.xpath("//*[@id='actForecast']/li/div/a/img/@src").extract()
        for name, time, detail_url,imgsrc in zip(act_names, act_times, act_detail_urls,act_imgsrc):
            item = GzlibItem()
            item['name'] = '' if name == None else name.strip()
            item['time'] = '' if time == None else time.strip()
            item['detail_url'] = '' if detail_url == None else detail_url.strip()
            item['imgsrc'] = ['' if imgsrc==None else urllib.parse.urljoin(response.url,imgsrc.strip())]
            if self.redis_db.hexists(self.redis_data_dict,
                                     detail_url):
                print(detail_url + 'url已经被爬取过。')
                pass
            else:
                print(detail_url + 'url未被爬取过。')
                self.redis_db.hset(self.redis_data_dict, detail_url, 0)

                yield SplashRequest(detail_url,
                                callback=self.parse_splash_actDetail,
                                meta={'item': item},
                                args={'wait': 10},
                                endpoint='render.html'
                                )
        nextJS = response.xpath("//a[contains(text(), '下一页')]/@onclick").extract_first()
        if nextJS and self.next:
            print('next page script is :' + str(nextJS) + '!!')

            yield SplashRequest(response.url,
                                callback=self.parse_splash_actList,
                                args={'wait': 10, 'lua_source': self.next_lua, 'url': response.url, 'script': nextJS},

                                endpoint='execute'
                                )
        pass

    def parse_splash_actDetail(self, response):
        item = response.meta['item']
        outline = response.xpath(
            "// *[ @ id = 'view-text'] / div[@class='action']/ div[@class='title'] /a/text()").extract_first().strip() + '\n'
        outline += response.xpath(
            "// *[ @ id = 'view-text'] / div[@class='action']/ div[@class='title'] /p")[0].xpath(
            'string()').extract_first().strip() + '\n'
        for node in response.xpath(
                "// *[ @ id = 'view-text'] / div[@class='p'] "):
            outline += node.xpath('string(.)').extract_first().strip() + '\n'
            pass
        item['detail_outline'] = outline
        content = ''
        for node in response.xpath("// div[ @ class = 'view-content'][1] / p "):
            content += node.xpath('string(.)').extract_first().strip() + '\n'
            pass
        item['detail_content'] = content.strip().replace('\n\n','\n')
        yield item
    pass

pipelines.py

import hashlib
from scrapy.utils.python import to_bytes
import openpyxl
from scrapy.http import Request
from scrapy.pipelines.images import ImagesPipeline
import pymysql
from itemadapter import ItemAdapter

class GzlibPipeline:
    connect = pymysql.connect(host='127.0.0.1', port=3306, user='root', password='wjcumt790625',
                              database='scrapy_db', charset='utf8')
    cursor = connect.cursor()
    def __init__(self):
        self.wb = openpyxl.Workbook()
        self.ws = self.wb.active
        self.ws.append(['活动名称', '时间','详情页地址','概要','内容'])

    def process_item(self, item, spider):
        line = [item['name'], item['time'],item['detail_url'],item['detail_outline'],item['detail_content']]
        self.ws.append(line)

        query = 'insert into gzlibact_tb(name,date,url,outline,content) values(%s, %s, %s, %s, %s)'
        values=(item['name'], item['time'],item['detail_url'],item['detail_outline'],item['detail_content'])
        try:
            self.cursor.execute(query, values)
        except:
            self.connect.rollback()
        return item

    def close_spider(self, spider):
        self.connect.commit()
        self.wb.save('hdACT1.xlsx')
        self.wb.close()

class GzlibImgPipeline(ImagesPipeline):
    def get_media_requests(self, item, info):
        urls=item['imgsrc']
        return [Request(u,meta={'item': item}) for u in urls]

    def file_path(self, request, response=None, info=None, *, item=None):
        item=request.meta['item']
        image_name=item['imgsrc'][0].split('/')[-1]
        return f'full/{image_name}.jpg'

五、运行爬虫

在命令行中输入以下命令：

scrapy crawl hdACT

Original: https://blog.csdn.net/weixin_42355670/article/details/123964798
Author: Tanmch791115
Title: 利用scrapy+splash+redis实现对JS动态生成网页的增量爬取

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/788586/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pygame入门之环境配置

14天学习训练营导师课程：李宁《Python Pygame游戏开发入门与实战》李宁《计算机视觉OpenCV Python项目实战》1李宁《计算机视觉OpenCV Python项目实…

Python 2023年9月17日
0061
【JavaScript】15_debug，立即执行函数与严格模式

14、debug <script> console.log(a) var a = 1 console.log(a) function a() { alert(2) } …

Python 2023年9月25日
0040
【学习笔记】[AGC030F] Permutation and Minimum

套路题。然而思维太混乱了没有做出来我是丝薄显然有( − 1 , x i ) , ( − 1 , − 1 ) (-1,x_i),(-1,-1)(−1 ,x i ),(−1 ,−…

Python 2023年11月4日
0066
一文搞定Pandas核心概念之DataFrame

DataFrame概述 DataFrame 是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔型值）。DataFrame 既有行索引也有列索引，…

Python 2023年8月16日
0057
我为何在 CSDN 乐在其中

文章目录写在前面成为博主究竟能得到什么？ * 内在提升耀眼名片丰富眼界提升知名度博客=》变现写在最后写在前面各位伙伴大家好，我是几何心凉，一位不是很大的也不是很小…

Python 2023年11月5日
0047
设置pandas显示行数_Pandas 使用小技巧 No 23

Pandas 使用小技巧 23：系统配置如何 print一次只显示指定行数，指定列数。使用 pd.set_option方法，演示过程如下。首先创建一个 DataFrame: …

Python 2023年8月8日
0055
python植物大战僵尸（1）

欢迎加入我们卧虎藏龙的python讨论qq群：729683466 ● 导语 ● 之前一直发一些简单的小游戏百十行代码的那种估计大家已经了解的一清二楚了现在可以讲一些比较复杂…

Python 2023年9月19日
0044
Python数据分析(一) —— 绘制简单的折线图

折线图用于显示数据在一个连续的时间间隔或者时间跨度上的变化，它的特点是反映事物随时间或有序类别而变化的趋势。在折线图中，数据的变化特性可以清晰的反映出来。数据的变化规律、峰值、增减…

Python 2023年9月2日
0093
matplotlib可视化系列之【基础元素】

概要 matplotlib算是历史悠久的python可视化库了，2003年就发布了 v0.10 版本，现在已经到了 v3.x 版本了。代码和功能虽然有翻天覆地改变，但由于其历史…

Python 2023年5月24日
0079
关于Python的Selenium框架全解，一篇完整的说明书

安装 selenium 第三方库 <span class="hljs-attribute">pip install selenium</spa…

Python 2023年11月9日
0039
应用时间序列分析——有季节效应的非平稳序列分析-R语言

因素分解理论： 1919年统计学家沃伦·珀森斯(Warren Persons)在他的论文《商业环境的指标》中首次提出了确定性因素分解(time series decompositi…

Python 2023年9月16日
0080
用Python写一个微信提醒备忘录

Original: https://www.cnblogs.com/123456feng/p/16141901.htmlAuthor: 蚂蚁ailingTitle: 用Python…

Python 2023年11月3日
0034
[排序算法] 快速排序 (C++) (含三种写法)

快速排序解释快速排序 Quick Sort 与归并排序一样，也是典型的分治法的应用。 (如果有对归并排序还不了解的童鞋，可以看看这里哟~ 归并排序)❤❤❤ (本文作者： Amα…

Python 2023年10月14日
0056
SQL抽象语法树及改写场景应用

1 背景我们平时会写各种各样或简单或复杂的sql语句，提交后就会得到我们想要的结果集。比如sql语句，”select * from t_user where user…

Python 2023年10月19日
0055
python3+Pytest 接口自动化测试全方案设计与开发-No.3持续集成与Docker-01-jenkins和docker介绍与安装

1、介绍 jenkins 特点开源免费安装配置超级简单跨平台、支持所有的平台 web形式的可视化的管理页面分布式构建丰富的插件支持 Docker 特点开源免费方便快速…

Python 2023年9月11日
0061
【python文不如字之开篇之作】PIL、tkinter、pygame和CMD命令行实战演示字符、字符集、字符编码知识

【文不如字之开篇之作】字符、字符集、字符编码基础知识宣贯篇字符集和字符编码 —— 每个软件开发人员应该无条件掌握的知识！文章目录一、基础知识 * （一）字符（二）字符集（…

Python 2023年9月24日
0053

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31