Python截胡修改scrapy-redis适应动态redis_key，自由拼接url！！

2023年10月3日上午11:38 • Python • 阅读 33

能看到这篇文章的人想必是有一定了解 scrapy的人，但是由于 redis_key非动态性以及不符合业务的 url拼接的原因，导致scrapy_redis对于某些业务非常不顺手，甚至不适应业务！！但是！！通过截胡修改源码的方式能够使得redis_key动态变化，并且url能够自由拼接~~必须点赞！！

一、咱们先来看看框架的简介

scrapy-redis是scrapy框架基于redis数据库的组件，用于scrapy项目的分布式开发和部署。

有如下特征：

1、分布式爬取

您可以启动多个spider工程，相互之间共享单个redis的requests队列。最适合广泛的多个域名网站的内容爬取。

2、分布式数据处理

爬取到的scrapy的item数据可以推入到redis队列中，这意味着你可以根据需求启动尽可能多的处理程序来共享item的队列，进行item数据持久化处理

3、Scrapy即插即用组件

Scheduler调度器 + Duplication复制过滤器，Item Pipeline，基本spider

4、scrapy-redis架构

Python截胡修改scrapy-redis适应动态redis_key，自由拼接url！！

; 二、修改make_request_from_data方法

由于我的业务使用了很多redis，所以代码会比较多看起来会比较繁荣，但是都是有存在必要的，这个方法主要是为了拼接url以及获取到任务需要的参数

    def make_request_from_data(self, data):
"""
        重写make_request_from_data方法，data是scrapy-redis读取redis中的"'关键词||大词id||小词id'"，然后发送get请求
        :param data: redis中消息队列数据，是一个string
        :yield: 一个Request对象
"""

        if data == 1:
            return "等待任务"
        article_page = self.article_page

        small_word = data.split("||")[0]
        big_id = data.split("||")[1]
        small_id = data.split("||")[2]
        smallinfo = [(small_id, big_id, small_word, datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S"))]

        self.cur.executemany(f"insert into {self.sql_dbname}.s_word(id, bid,s_keyword,create_time) values(%s,%s,%s,%s)",smallinfo)
        self.conn.commit()
        for page in range(article_page):

            info = self.redis_db2.sismember(f"{self.sql_dbname}_None", f"No infos:{str(small_id)}")
            if info:
                self.redis_db2.srem(f"{self.sql_dbname}_None", f"No infos:{str(small_id)}")
                print("删除并break")
                break

            url1 = f"https://www.alibaba.com/products/{small_word}.html?IndexArea=product_es&page={page}"
            response1 = scrapy.Request(url=url1,meta={"big_id":big_id,"db_name": self.sql_dbname, "small_id": small_id, "small_word": small_word, "db_id": self.db_id},callback=self.parse)

            yield response1

三、修改next_requests方法

这里是重点，为了适应动态的redis_key，从而修改的方法，也是本文的重中之重！！大家仔细看注释，一定要有耐心！！

    def next_requests(self):
        """Returns a request to be scheduled or none."""
        use_set = self.settings.getbool('REDIS_START_URLS_AS_SET', defaults.START_URLS_AS_SET)
        fetch_one = self.server.spop if use_set else self.server.lpop

        found = 0

        for key in self.redis_db2.keys():

            if "_task_info" in key:

                db_name = key.rsplit('_', 2)[0]

                pd, task_info = 0, ''
                for key1 in self.redis_db1.keys():
                    if f'{db_name}_task_start' == key1:
                        pd = 1

                if pd == 0:
                    self.sql_dbname = db_name

                    total = self.redis_db2.llen(f"{db_name}_task_start")
                    cc = list(self.redis_db2.smembers(f"{db_name}_task_state"))
                    if total and not cc:
                        totalinfo = {"total": total}
                        self.redis_db2.sadd(f"{db_name}_task_state", json.dumps(totalinfo))

                    self.Bigworlen = self.redis_db2.llen(f"{db_name}_task_start")

                    task_info = json.loads(list(self.redis_db2.smembers(key))[0])
                    if task_info:

                        article_engines = task_info["article_engines"]

                        if article_engines == "Alibaba":

                            self.article_page = task_info["article_page"]

                            self.db_id = task_info["db_id"]

                            self.redis_key = f"{self.sql_dbname}_task_start"
                            self.redis_batch_size = self.Bigworlen

        if not self.Bigworlen:
            req = self.make_request_from_data(1)
            return req
        while found < self.redis_batch_size:

            data = fetch_one(self.redis_key)

            if not data:
                req = self.make_request_from_data(1)
                return req

                break
            data = bytes.decode(data)
            req = self.make_request_from_data(data)
            if req:
                return req
            found += 1
        else:
            self.logger.debug("请求不是从数据发出的: %r")
            if found:
                self.logger.debug("Read %s requests from '%s'", found, self.redis_key)

四、修改start_requests方法

这个方法主要是拿来初始化数据库链接

    def start_requests(self):
        """Returns a batch of start requests from redis."""

        self.conn = pymysql.connect(host='r.aliyuncs.com', user='root',password='C', charset='utf8')
        self.cur = self.conn.cursor()

        self.redis_db1 = redis.Redis(host='r.aliyuncs.com', port=6379,password='8', db=1, decode_responses=True, encoding="utf-8",errors='ignore')
        self.redis_db2 = redis.Redis(host='r.aliyuncs.com', port=6379,password='8', db=2, decode_responses=True, encoding="utf-8",errors='ignore')
        self.sql_dbname, self.Bigworlen, self.article_page, self.db_id = '', 0, '', ''
        return self.next_requests()

五、然后就可以打包成docker镜像扔k8s了，美滋滋

当然还有不会的朋友可以加群交流，然后点个赞吧，给点动力！！~~

Original: https://blog.csdn.net/pengshengege/article/details/112170821
Author: 鹏神哥哥
Title: Python截胡修改scrapy-redis适应动态redis_key，自由拼接url！！

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790217/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【数据分析】认识Pandas：DataFrame和Series结构、属性

数据分析工具——Pandas 认识Pandas * Dataframe 结构 – DataFrame 构造方法 dtype参数 Series 结构 – Se…

Python 2023年8月15日
0058
ModuleNotFoundError No module named ‘PIL’问题解决

原文链接 Python使用时出现报错： ModuleNotFoundError No module named ‘PIL’ 该提示表示缺少pillow模块，…

Python 2023年5月24日
0085
机器学习笔记-Adaboost调参

Adaboost调参 Sklearn中的Adaboost接口是在sklearn.ensemble中，ensemble是集成的意思，在这个包中含有很多集成模型，Adaboost就是封…

Python 2023年10月10日
0050
关于Ubuntu18.04在启动时出现[FAILED]Failed to start Raise network interfaces报错，或者Cannot find device “eth0”

关于在启动Ubuntu18.04虚拟机时，启动界面发生报这件事。如图：在运行报错给出的提示后得到如下结果 systemctl status networking.service …

Python 2023年6月15日
00114
面试突击82：SpringBoot 中如何操作事务？

在 Spring Boot 中操作事务有两种方式：编程式事务或声明式事务，接下来我们一起来看二者的具体实现。 1.编程式事务在 Spring Boot 中实现编程式事务又有两种实…

Python 2023年10月22日
0028
Libgdx游戏开发(2)——接水滴游戏实现

原文:Libgdx游戏开发(2)——接水滴游戏实现 – Stars-One的杂货小窝本文使用Kotlin语言开发通过本文的学习可以初步了解以下基础知识的使用: Ba…

Python 2023年10月20日
0039
外星人入侵（全部代码）

Alien_Invasion.py import pygame from settings import Settings from airplane import Airplan…

Python 2023年9月20日
0063
学习groupby-agg用法

groupby 分组数据如下 import pandas as pd df=pd.read_excel(‘销售明细.xlsx’) print(df) name 品种数量单价金…

Python 2023年8月20日
0060
指针强化练习，让你彻底征服指针【c语言】

文章目录一维数组字符数组字符指针二维数组 ; 一维数组 sizeof(数组名) – 数组名表示整个数组的-计算的是整个数组的大小&数组名 –…

Python 2023年9月17日
0033
前端ajax+flask+pymysql将获取到的图片传入数据库

目标：上传用户头像并存储数据库增加字段将图片进行base64存储，长度非常长，采用mediumtext；数据库处理 alter table user_login add us…

Python 2023年8月14日
0047
Pandas基础命令速查表

前言最近发现写的关于python的博客慢慢有人在看，并且关注。突然觉得分享学习内容供大家参考是一件快乐的事情，虽然跟其他大博主相差太远，文章质量也不在一个level。但是还是想在这…

Python 2023年8月6日
0063
Python学习（一）——海龟绘图

最近打算开两个新专题， Python学习和 C++学习，由于科研有较高的编程需求，自己的编码能力有待提高，希望将学习的过程记录下来。今天来玩一个好玩的游戏，借助Python海龟绘…

Python 2023年8月2日
0079
01.【入门必备】认识python–＞Linux中python环境搭建–＞Linux交互模式ipython

📋 个人简介💖 作者简介：大家好，我是小鹏linux，运维领域新星创作者。😜📝 个人主页：小鹏linux🔥🎉 支持我：点赞👍+收藏⭐️+留言📝💬格言：你未必出类拔萃，但一定与众不同…

Python 2023年8月2日
0038
天池数据-耳机情感分析

import numpy as np import pandas as pd import matplotlib import matplotlib.pyplot as plt i…

Python 2023年8月8日
0053
Python垃圾回收机制

Python垃圾回收机制原创 ch3nnn2022-07-18 17:45:27博主文章分类：Python ©著作权文章标签引用计数 python 垃圾回收文章分类 Pyt…

Python 2023年5月25日
0081
Pandas之:深入理解Pandas的数据结构

本文将会讲解Pandas中基本的数据类型Series和DataFrame，并详细讲解这两种类型的创建，索引等基本行为。使用Pandas需要引用下面的lib： In [1]: im…

Python 2023年8月19日
0071

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31