scrapy_redis配置

2023年10月6日下午9:36 • Python • 阅读 26

from itemadapter import ItemAdapter
import json
#字典
from demo_58.items import Demo58Item_ershou,Demo58Item_zufang
#redis指纹服务，数据保存，数据对比
from demo_58.ext_mod import Filter

#实例化对象
fu = Filter()
class Demo58Pipeline_zufang:
    def __init__(self):
        #文件打开
        self.file = open('租房信息.json','a')

    def process_item(self, item, spider):

        # 判断选择目标数据 --》item.py文件的对应类对象
        if isinstance(item,Demo58Item_zufang):

            data = dict(item)
            tit = data['title']  # 将标题处理成密文

            # 判断这个tit不存在的时候
            if not fu.isismember(tit):
                # 不存在就添加
                fu.add_data(tit)
                self.file.write(json.dumps(data,ensure_ascii=False)+',\n')
        return item

    def __del__(self):
        self.file.close()

保存二手房信息
class Demo58Pipeline_ershoufang:
    def __init__(self):
        self.file = open('二手房信息.json', 'a')

    def process_item(self, item, spider):
        if isinstance(item, Demo58Item_ershou):
            data = dict(item)
            tit = data['title']  # 将标题处理成密文

            # 判断这个tit不存在的时候
            if not fu.isismember(tit):
                # 不存在就添加
                fu.add_data(tit)
                self.file.write(json.dumps(data, ensure_ascii=False) + ',\n')
        return item

    def __del__(self):
        self.file.close()

ext_mod 用于对接redis数据库，实现指纹对比，保存

import redis # pip install redis
import hashlib
redis_host = '127.0.0.1'

class Filter(object):
    '''将目标数据处理成哈希密文 用密文值比对更快'''
    def get_md5(self,val):
        md5 = hashlib.md5()

        # update()接受待加密对象
        md5.update(val.encode('utf-8'))
        return md5.hexdigest()  #取出密文值

    '''将密文添加到队列'''
    def add_data(self,url):

        # Python与redis建立链接
        red = redis.Redis(host=redis_host,port=6379,db=1)

        reslut = red.sadd('tc58:set_data',self.get_md5(url))
        if reslut == 0:
            return False
        else:
            return True

    '''判断是否存在在集合中'''
    def isismember(self,url):

        # Python与redis建立链接
        red = redis.Redis(host=redis_host, port=6379, db=1)

        # sismember()判断某内容存在
        res = red.sismember('tc58:set_data',self.get_md5(url))
        return res

import scrapy
from demo_58.items import Demo58Item_zufang,Demo58Item_ershou
1.导入RedisSpider类
from scrapy_redis.spiders import RedisSpider

2，继承类
class SpiderSpider(RedisSpider):
    name = 'spider'
    # 3.注释域名和起始URL，不做使用
    # allowed_domains = ['58.com']
    # start_urls = ['http://58.com/']

    # 4 设置redis_key
    redis_key = 'spider:start_url'

    def parse(self, response):

解析，保存为字典

yield 字典

启动

if __name__ == '__main__':
    from scrapy import cmdline
    cmdline.execute(['scrapy', 'crawl', 'spider'])

随机ua

class UserAgentDownloadMiddleware:
    user_agent = [
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1',
        'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50',
        'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:77.0) Gecko/20190101 Firefox/77.0',
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',
        'Opera/9.80 (X11; Linux i686; Ubuntu/14.10) Presto/2.12.388 Version/12.16.2'
    ]

    # 方法名是scrapy规定的方法 （协商机制）
    # 每个交给下载器的request对象都会经过该方法，并期望返回response
    def process_request(self, request, spider):
        # 获取随机请求头
        u_a = random.choice(self.user_agent)
        # 设置请求头
        request.headers['User-Agent'] = u_a

随机ip
class RandomProxy:
    ip_list = [
        '124.116.116.13:4228',
        '122.194.194.139:4212',
        '36.42.248.45:4215',
        '1.83.250.183:4228',
        '49.85.43.175:4223',
        '121.205.229.70:4231',

    ]

    def process_request(self, request, spider):
        proxy = random.choice(self.ip_list)

        # 修改请求的元数据字典
        # 如果是将IP以列表随机形式构造 需要加上https://,否则报错
        request.meta['proxy'] = 'https://' + proxy

        # 如果是将IP以字典形式构造
        print('IP:', request.meta)

scrapy_redis

分布式爬取数据

分布式处理数据

断点续爬

启动从机#可启动多个，尽量别超过8个，否则电脑容易出问题

爬虫文件上一级目录下

scrapy runspider 爬虫文件.后缀

启动主机

redis-cli

任务发布

@1为spider中redis_key

lpush @1 网址

如错误欢迎指出，本人也小白，希望尽微薄之力让更多人理解

Original: https://blog.csdn.net/qq_64075230/article/details/128201128
Author: 黎明来临
Title: scrapy_redis配置

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792870/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【深度强化学习】多智能体算法汇总

0 Preliminaries 在多智能体强化学习算法中，两个主要的技术指标为合理性与收敛性。合理性（rationality）：在对手使用一个恒定策略的情况下，当前智能体能够学习…

Python 2023年9月27日
0044
深度学习模型概览

Inception结构 Inception是GoogLeNet中最核心的子网络结构。 Inception核心思想：既能保持网络结构的稀疏性（卷积）,又能利用密集矩阵的高计算性能（合…

Python 2023年10月25日
0043
Pygame最小开发框架

一，Pygame简介与安装 win平台: “以管理员身份运行” cmd，执行pip install pygame pip install pygame Py…

Python 2023年9月24日
0040
线上服务宕机，码农试用期被毕业，原因竟是给MySQL加个字段

1. 问题：怎么给线上表加字段？工作中最常遇到的问题，怎么给线上频繁使用的大表添加字段？比如：给下面的用户表（user）添加年龄（age）字段。 CREATE TABLE us…

Python 2023年10月19日
0048
【Python】Benewake(北醒) TFmini-i 485（Modbus协议）Ubuntu系统上使用Python扫描站号和地址的方法

目录 1 前言 2 TFmini-i 485简要说明 * 2.1 产品图片 2.1 电气特性 2.2 RS485通讯协议 3 硬件接线说明 4 测试环境说明 * 4.1 系统软件库…

Python 2023年8月29日
0043
SETTLE约束算法中的坐标变换问题

技术背景在之前的两篇文章中，我们分别讲解了SETTLE算法的原理和基本实现和SETTLE约束算法的批量化处理。SETTLE约束算法在水分子体系中经常被用到，该约束算法具有速度快、…

Python 2023年10月23日
0035
YOLOv7中的数据集处理【代码分析】

本文章主要是针对yolov7中数据集处理部分代码进行解析(和yolov5是一样的)，也是可以更好的理解训练中送入的数据集到底是什么样子的。数据集的处理离不开两个类，一个是Data…

Python 2023年10月9日
0063
python爬取优缺点_Scrapy 的优缺点?以及如何设置深度爬取

优点： 1)scrapy 是异步的 2)采取可读性更强的 xpath 代替正则 3)强大的统计和 log 系统 4)同时在不同的 url 上爬行 5)支持 shell 方式，方便独…

Python 2023年10月3日
0046
千古前端图文教程-HTML001-认识Web和Web标准

认识Web和Web标准认识Web和Web标准 Web、网页、浏览器 Web 网页浏览器 Web标准 W3C组织 Web标准 Web、网页、浏览器 Web Web（World W…

Python 2023年6月12日
0074
上汽率先建成智能汽车生态，“让天下没有难写的软件”

杨净发自凹非寺量子位 | 公众号 QbitAI “让天下没有难写的软件，让每个人都成为场景的导演。” 刚说出这句话的，不是以”让天下没有&…

Python 2023年11月8日
0027
Pandas 五：怎样新增数据列

在进行数据分析时，经常需要按照一定条件创建新的数据列，然后进行进一步分析。1.直接赋值2.df.apply方法3.df.assign方法4.按条件选择分组分别赋值1 import …

Python 2023年8月17日
0039
STM32三条总线（AHB、APB1、APB2）的外设映射情况

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年9月29日
0064
常见的兼职干活挣米平台

https://www.zbj.com/ 猪八戒 https://www.proginn.com/ 程序员客栈 https://www.yuanjisong.com/ 猿急送 ht…

Python 2023年5月24日
0070
从0到1项目搭建-框架搭建(附源码)

前言大家好，本文是基于 SpringBoot 从0搭建一个企业级开发项目，基于SpringBoot 的项目，并集成MyBatis-Plus、Druid、Logback 等主流技术…

Python 2023年9月28日
0031
Django db使用MySQL连接池

Django db模块本身不支持MySQL连接池，只有一个配置 CONN_MAX_AGE连接最大存活时间，如果WSGI服务器使用了线程池技术，会达到连接复用的效果。但是如果WSGI…

Python 2023年6月3日
0078
python np.array()函数原理详细分析——列表和数组

一、数组和列表列表不存在维度问题，数组是有维度的np.array()把列表转化为数组问题：数组和列表的转化问题官方解释： ; 二、代码实例分析（1）列表嵌套一维数组，然后np…

Python 2023年8月24日
0080

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

scrapy_redis配置

ext_mod 用于对接redis数据库，实现指纹对比，保存

启动

scrapy_redis

爬虫文件上一级目录下

@1为spider中redis_key

大家都在看