爬虫学习笔记（十三）—— scrapy-redis（二）：存储到MySQL、Scrapy项目部署

2023年10月3日下午3:16 • Python • 阅读 43

文章目录

一、小案例：爬取纵横小说(RedisCrawlSpider)
*
1.1、spider文件
1.2、settings文件
二、redis数据存储到MySQL
三、Scrapy 项目部署
*
3.1、安装 scrapyd
3.2、scrapy.cfg设置
3.3、执行打包命令
3.4、启动爬虫
3.5、关闭爬虫

一、小案例：爬取纵横小说(RedisCrawlSpider)

这里修改我们 Scrapy框架（三）：CrawSpider模板的案例实现伪分布式(下面我仅写有修改部分的代码)

1.1、spider文件

import json

import datetime
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from ..items import BookItem,ChapterItem,CatalogItem

from scrapy_redis.spiders import RedisCrawlSpider

class ZhSpider(RedisCrawlSpider):
    name = 'zh'

    redis_key = "zh:start_urls"
    rules = (
        Rule(LinkExtractor(allow=r'http://book.zongheng.com/book/\d+.html',restrict_xpaths='//div[@class="bookname"]'), callback='parse_book', follow=True,process_links='get_booklink'),
        Rule(LinkExtractor(allow=r'http://book.zongheng.com/showchapter/\d+.html'), callback='parse_catalog', follow=True),
        Rule(LinkExtractor(allow=r'http://book.zongheng.com/chapter/\d+/\d+.html',restrict_xpaths='//ul[@class="chapter-list clearfix"]'), callback='parse_chapter',follow=False,process_links='get_chapterlink'),
    )

    def get_booklink(self,links):
       for index,link in enumerate(links):
           print(index,link.url)
           if index30:
               yield link
           else:
               return

    def get_chapterlink(self,links):
       for index,link in enumerate(links):
           if index1:
               yield link
           else:
               return

 ·············

1.2、settings文件


SCHEDULER = "scrapy_redis.scheduler.Scheduler"

DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

ITEM_PIPELINES  =  {
    'scrapy_redis.pipelines.RedisPipeline':300,
    'zhnovel.pipelines.ZhnovelPipeline': 200,
}

REDIS_HOST = 'localhost'
REDIS_PORT = 6379

SCHEDULER_PERSIST = True

LOG_DATEFORMAT='%Y'

结果执行步骤：
1、准备(除了写入的表名，这两文件代码完全一模一样)：

数据库的novel(存储书名及相关信息)和chapter(存储各个章节)表都复制一份

2、在终端分布运行这两个文件(由于还没在redis设置钥匙，所以这两文件都处于等待状态)

3、再开启一个终端(redis写入钥匙)

最后让我们来看看结果是什么样的（这里我爬取了31本书）：
① 首先我们先看下redis数据库里面的数据：

可以看到总共有31本书

② 然后我们先打开MySQL数据库：

爬虫学习笔记（十三）—— scrapy-redis（二）：存储到MySQL、Scrapy项目部署

两个张表里的数据加起来刚好31条，说明我们的伪分布式是成功的(这里章节结果爬取不演示了)。

二、redis数据存储到MySQL

因为开启了公共管道，所以两个项目的公共区域 redis 里会有两个项目的数据,是完整的数据，可以持久化到MySQL里进行持久化的存储
原因：redis存储是基于内存的，数据多可能会影响运行速度，所以要对redis中的数据进行持久化
下面的是 redis数据存储到MySQL 的一般书写形式(仅供参考)：

import redis
import pymysql
import json

rediscli = redis.StrictRedis(host= '127.0.0.1', port = 6379, db = 0)

mysql_conn = pymysql.connect(host="127.0.0.1", port=3306, user="xxx", passwd="xxx", db="数据库名")

while True:

    source, data = rediscli.blpop("表名:items")
    item = json.loads(data)

    cursor = mysql_conn.cursor()

    cursor.execute("insert into 表名 (username, age) values (%s, %s)", [item['username'], item['age']])

    mysql_conn.commit()

    cursor.close()

示例：
(redis里的数据是案例存进去的)

import redis
import pymysql
import json

rediscli = redis.StrictRedis(host= '127.0.0.1', port = 6379, db = 0)

mysql_conn = pymysql.connect(host="127.0.0.1", port=3306, user="root", passwd="123456", db="zhnovel",charset="utf8")

while True:

    source, data = rediscli.blpop("zh:items")
    item = json.loads(data)
    print('source = ',source)
    print('data = ',data)

    cur = mysql_conn.cursor()

    if 'book_name' in data:
        sql = "select id from novel_copy where book_name=%s and author=%s"
        cur.execute(sql, (item['book_name'], item['author']))
        if not cur.fetchone():
            sql = "insert into novel_copy(category,book_name,author,status,book_nums,description,book_url,catalog_url) values(%s,%s,%s,%s,%s,%s,%s,%s)"
            cur.execute(sql, (
            item['category'], item['book_name'], item['author'], item['status'], item['book_nums'], item['description'],
            item['book_url'], item['catalog_url']))
    elif 'chapter_list' in data:
        sql = 'insert into chapter_redisTomysql(title,ord_num,chapter_url,catalog_url) values(%s,%s,%s,%s)'
        data_list = []
        for index, chapter in enumerate(item['chapter_list']):
            ord_num = index + 1
            title, chapter_url, catalog_url = chapter
            data_list.append((title, ord_num, chapter_url, catalog_url))
        cur.executemany(sql, data_list)
    elif 'content' in data:
        sql = "update chapter_redisTomysql set content=%s where chapter_url=%s"
        cur.execute(sql, (item['content'], item['chapter_url']))

    mysql_conn.commit()

    cur.close()

mysql_conn.close()

结果：

三、Scrapy 项目部署

3.1、安装 scrapyd

命令1:

pip install  scrapyd

验证:

输入 scrapyd ，可以点击页面则成功

命令2:

pip  install  scrapyd-client

验证:

到 scrapy 项目下面，输入 scrapyd-deploy ，出现

Unknown target: defaultg

3.2、scrapy.cfg设置

[settings]
default = zhnovel.settings

[deploy:novel]   ;
;取消注释    url必须有，可以是远程服务器
url = http://localhost:6800/
;项目名称
project = zhnovel
;访问服务器需要的用户名和密码  (可以不写)
;username=xxx
;password=xxx

终端输入命令 scrapyd-deploy -l 查看设置的部署名称和 url

3.3、执行打包命令

位置: 在有scrapy.cfg 的目录下

输入 scrapyd-deploy spider(部署名称) -p zongheng(项目名称)

终端显示如下:

Deploying to project "zhnovel" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "DESKTOP-ISNG60N", "status": "ok", "project": "zhnovel", "version": "1626959536", "spiders": 1}

输入 http://127.0.0.1:6800 网页端显示如下:

3.4、启动爬虫

命令：
curl http://localhost:6800/schedule.json -d project=项目名称 -d spider=爬虫文件名

显示如下:

建议使用cmd，打开命令行执行该语句，不然可能会出现报错

; 3.5、关闭爬虫

命令： curl http://localhost:6800/cancel.json -d project=项目名 -d job=填jobid值

Original: https://blog.csdn.net/qq_46485161/article/details/118903187
Author: 别呀
Title: 爬虫学习笔记（十三）—— scrapy-redis（二）：存储到MySQL、Scrapy项目部署

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790335/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

活体检测综述 Deep Learning for Face Anti-Spoofing: A Survey 阅读记录

论文链接：Deep Learning for Face Anti-Spoofing: A Survey | IEEE Journals & Magazine | IEEE …

Python 2023年10月10日
0060
2022年深度学习最新研究成果

一、开源深度学习编译器 ; 二、开源深度学习加速器三、AITemplate引擎 ; 四、微型机器学习框架参考文献：https://arxiv.org/pdf/1510.001…

Python 2023年9月30日
0048
Scrapy框架-redis分布式(从Scrapy框架创建项目到redis分布式)

*盗墓笔记案例：目标网址：http://www.daomubiji.com / scrapy 项目： 1. 创建项目 2. 创建爬虫 3. 定义item 数据内容： 1. 书的名…

Python 2023年10月2日
0056
Matplotlib保存图片到文件

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月30日
0069
mysql好评中评统计_scrapy爬取京东笔记本及评论信息存入MySQL数据库

爬取思路 1.分析页面，定义爬取字段 2.观察网页，分析接口url，通过xpath和json解析爬取内容字段 3.在pipelines.py写入存储方式 4.开始爬取 5.GitH…

Python 2023年10月4日
0048
PINN学习与实验（一）

目录所用工具数学方程模型搭建所有实现代码结果展示参考文献今天第一天接触PINN，用深度学习的方法求解PDE，看来是非常不错的方法。做了一个简单易懂的例子，这个例子非常…

Python 2023年8月1日
0032
python 在一个非套接字上尝试了一个操作_PyCharm调试Flask报OSError: [WinError 10013] 以一种访问权限不允许的方式做了一个访问套接字的尝试。…

报错如下： FLASK_APP = app.py FLASK_ENV = development FLASK_DEBUG = 0 In folder D:/python_progr…

Python 2023年8月15日
0057
python 字段错位的处理

需要解决的问题： import pandas as pd import numpy as np df = pd.DataFrame([[1,np.nan,3],[4,5,6],[7…

Python 2023年8月7日
0071
numpy,pandas,tensor，mat等数据类型互转（更新中）

pandas转pd data_np = data_pd.to_numpy() #输出np.array 最近在数据处理阶段，用到了常见的数…

Python 2023年8月24日
0050
IIC信号为什么要加上拉电阻

IIC是一个两线串行通信总线，包含一个SCL信号和SDA信号，SCL是时钟信号，从主设备发出，SDA是数据信号，是一个双向的，设备发送数据和接收数据都是通过SDA信号。在设计II…

Python 2023年10月8日
0049
每日挠头算法题（十五）螺旋矩阵II

“强大方能侠义” ——持续更新Blue Bridge杯入门系列算法实例——– 如果你也喜欢Jav…

Python 2023年10月27日
0031
微博用户信息源代码爬取_Scrapy爬取新浪微博移动版用户首页微博

前言：本次爬取的是新浪微博移动端(https://m.weibo.cn/)，爬取的数据是用户微博首页的第一条微博(如下图)，包括文字内容、转发量、评论数、点赞数和发布时间，还有用…

Python 2023年10月5日
0054
用python 读取matlab 中的结构体 / 从numpy.void中提取数据

用python 读取matlab 中的结构体 / 从numpy.void中提取数据目录用python 读取matlab 中的结构体 / 从numpy.void中提取数据前言 …

Python 2023年8月26日
0054
Flask入门（一）

追溯到最初，Flask 诞生于 Armin Ronacher 在 2010 年愚人节开的一个玩笑。后来，它逐渐发展成为一个成熟的 Python Web 框架，越来越受到开发者的喜爱…

Python 2023年8月13日
0055
数据分析三、pandas库分组聚合与数据可视化

分组聚合与数据可视化一、分组聚合 * 1.1、单层分组聚合：df.groupby(by)[‘列索引’].mean()。 – 1.1.1单层分组…

Python 2023年8月18日
0071
Numpy 解一元二次方程

1.poly1d() 函数 p1 = np.poly1d([2, 3, 5, 7]) print(p1, p1.r) p2 = np.poly1d([2, 3, 5], True)…

Python 2023年8月25日
0042

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31