逆向爬虫18 Scrapy抓取全站数据和Redis入门

2023年10月2日下午11:41 • Python • 阅读 50

逆向爬虫18 Scrapy抓取全站数据和Redis入门

一、全站数据抓取

1. 什么是抓取全站数据？

我们曾经在过猪八戒，图片之家，BOSS直聘等网站，利用网站官方提供的搜索功能，搜索指定关键词的内容，并把这些内容都抓取下来。现在我们来总结一下这些网站信息的共同点。

1. &#x5229;&#x7528;&#x6D4F;&#x89C8;&#x5668;&#x8BBF;&#x95EE;&#x6307;&#x5B9A;&#x7F51;&#x7AD9;&#xFF0C;&#x5E76;&#x5728;&#x5B98;&#x65B9;&#x7684;&#x641C;&#x7D22;&#x680F;&#x4E2D;&#x641C;&#x7D22;&#x60F3;&#x8981;&#x7684;&#x5185;&#x5BB9;&#x4FE1;&#x606F;&#x3002;
2. &#x670D;&#x52A1;&#x5668;&#x8FD4;&#x56DE;&#x4E00;&#x7CFB;&#x5217;&#x9875;&#x9762;&#x5217;&#x8868;&#xFF0C;&#x6BCF;&#x4E2A;&#x9875;&#x9762;&#x5185;&#x5305;&#x542B;&#x7740;&#x82E5;&#x5E72;&#x6761;&#x88AB;&#x641C;&#x7D22;&#x5185;&#x5BB9;&#x7684;&#x7B80;&#x4ECB;&#x4FE1;&#x606F;&#x3002;
3. &#x9010;&#x6761;&#x70B9;&#x51FB;&#x8FD9;&#x4E9B;&#x7B80;&#x4ECB;&#x4FE1;&#x606F;&#x7684;&#x7F51;&#x9875;&#x94FE;&#x63A5;&#x5C31;&#x53EF;&#x4EE5;&#x83B7;&#x5F97;&#x8BE5;&#x6761;&#x4FE1;&#x606F;&#x7684;&#x8BE6;&#x60C5;&#x5185;&#x5BB9;&#x3002;
4. &#x5BF9;&#x670D;&#x52A1;&#x5668;&#x8FD4;&#x56DE;&#x7684;&#x6BCF;&#x4E2A;&#x9875;&#x9762;&#x5217;&#x8868;&#x5747;&#x6267;&#x884C;&#x6B65;&#x9AA4;3&#xFF0C;&#x76F4;&#x5230;&#x9875;&#x9762;&#x5217;&#x8868;&#x5168;&#x90FD;&#x904D;&#x5386;&#x5B8C;&#x6210;&#x3002;

上图描述了全站数据抓取的基本模型，这个是个可以应用于很多网站，需求场景的通用模型，因此Scrapy专门针对这种情况专门写了一个全站数据抓取的案例，使我们只需要去关注简介信息，详情信息，页面列表翻页按钮这些每个网站不同的东西，而无需再编写这套通用的抓取数据业务逻辑的控制。总之，Scrapy想尽办法把通用的功能抽象出来只写一次，不通用的地方留出接口供用户自己实现。

本节使用汽车之家二手车页面来介绍如何进行全站数据抓取。

2. Scrapy传统的全站数据抓取

这部分内容之前做过，直接开干。

开始动手：

scrapy startproject qiche
cd qiche
scrapy genspider ershouche che168.com

代码说明：

ershouche.py文件

; settings.py文件

源码展示：

ershouche.py源码

import scrapy
from scrapy.linkextractors import LinkExtractor

class ErshoucheSpider(scrapy.Spider):
    name = 'ershouche'
    allowed_domains = ['che168.com', 'autohome.com.cn']
    start_urls = ['https://www.che168.com/china/list/#pvareaid=110965']
    def parse(self, resp):
        print(resp.url)
        print(resp.xpath('//title/text()').extract_first().strip())

        le = LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a',))
        links = le.extract_links(resp)
        for link in links:

            yield scrapy.Request(
                url=link.url,
                callback=self.parse_detail
            )

        page_le = LinkExtractor(restrict_xpaths=("//div[@id='listpagination']/a",))
        pages = page_le.extract_links(resp)
        for page in pages:
            yield scrapy.Request(
                url=page.url,

                callback=self.parse
            )

    def parse_detail(self, resp):
        try:
            print(resp.url)
            print(resp.xpath('//title/text()').extract_first().strip())
        except Exception as e:

            print(resp.url)
            print("上面的URL报错了")

3. Scrapy CrawlSpider全站数据抓取

开始动手：

scrapy genspider -t ershou che168.com

代码说明：

ershou.py文件

; 源码展示：

ershou.py源码

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class ErshouSpider(CrawlSpider):
    name = 'ershou'
    allowed_domains = ['che168.com', 'autohome.com.cn']
    start_urls = ['https://www.che168.com/china/list/#pvareaid=110965']

    rules = (

        Rule(LinkExtractor(restrict_xpaths=('//ul[@class="viewlist_ul"]/li/a')), callback='parse_item', follow=False),
        Rule(LinkExtractor(restrict_xpaths=("//div[@id='listpagination']/a")), follow=True),
    )

    def parse_item(self, resp):

        if "topicm.che168.com" not in resp.url:
            try:
                title = resp.xpath("//h3[@class='car-brand-name']/text()").extract_first()
                price = resp.xpath("//span[@id='overlayPrice']/text()").extract_first()
                if not title:
                    title = resp.xpath("//h3[@class='car-brand-name']/i[@class='icon-cxc']/text()").extract_first()
                if not price:
                    price = resp.xpath("//div[@class='goodstartmoney']/text()").extract_first()
                title = title.replace(" ","").strip()
                price = price.replace(" ","").strip()
                print(title, price)
                with open("title_price.txt", mode="a", encoding="utf-8") as f:
                    f.write(f"{title},{price},{resp.url}\n")
            except Exception as e:
                print(f"{resp.url} 出错了")
                print(e)
                with open("error.txt", mode="a", encoding="utf-8") as f:
                    f.write(f"{resp.url} 出错了\n")
                    f.write(f"{e}\n")

4. 小结

使用Scrapy中的CrawlSpider模板可以帮我们快速的抓取全站数据，用起来很方便。

二、Redis简单使用

redis作为一款目前这个星球上性能最高的非关系型数据库之一。拥有每秒近十万次的读写能力，其实力只能用恐怖来形容。

1. 安装redis

redis是我见过这个星球上最好安装的软件了。比起前面的那一坨。它简直了…

直接把压缩包解压。然后配置一下环境变量就可以了。

接下来, 在环境变量中将该文件夹配置到path中。

我们给redis多配置几个东西(修改redis的配置文件, mac是: redis.conf, windows是: )

关闭bind
关闭保护模式 windows不用设置

protected-mode no

设置密码

requirepass 123456

将redis怼到windows服务必须进入到redis目录后才可以

将redis安装到windows服务
redis-server.exe --service-install redis.windows.conf --loglevel verbose
卸载服务：
redis-server --service-uninstall
开启服务：
redis-server --service-start
停止服务：
redis-server --service-stop

使用redis-cli链接redis

redis-cli -h ip地址 -p 端口 --raw
auth 密码

附赠RDM, redis desktop manager。可以帮我们完成redis数据库的可视化操作(需要就装, 不需要就算)

2. redis常见数据类型

redis中常见的数据类型有5个。

命令规则: 命令 key 参数

string

字符串(它自己认为是字符串, 我认为是任何东西。), redis最基础的数据类型。

常用命令

set key value
get key
incr key
incrby key count
type key

例如

set name zhangsan
get name

set age 10
get age
incr age
get age
incrby age 5

hash

哈希, 相当于字典。

常见操作

hset key k1 v1
hget key k1
hmset key k1 v1 k2 v2 k3 v3....

hmget key k1 k2....

hgetall key
hkeys key
hvals key

示例:

HMSET stu id 1 name sylar age 18
HMGET stu name age
HGETALL stu
HKEYS stu
HVALS stu

list

列表, 底层是一个双向链表。可以从左边和右边进行插入。记住每次插入都要记得这货是个双向链表

常见操作

LPUSH key 数据1 数据2 数据3....

RPUSH key 数据1 数据2 数据3....

LRANGE key start stop

LLEN key
LPOP key
RPOP key

示例:

LPUSH banji yiban erban sanban siban
LRANGE banji 0 -1
RPUSH ban ban1 ban2 ban3
LRANGE ban 0 -1
LPOP ban
LLEN key

set

set是无序的超大集合。无序, 不重复。

常见操作

SADD key 值
SMEMBERS key
SCARD key
SISMEMBER key val
SUNION key1 key2
SDIFF key1 key2
SINTER key1 key2
SPOP key
SRANDMEMBER key count

实例:

SADD stars 柯震东 吴亦凡 张默 房祖名
SADD stars 吴亦凡
SMEMBERS stars
SISMEMBER stars 吴亦凡

SADD my 周杰伦 吴亦凡 房祖名
SINTER stars my

SPOP my
SRANDMEMEBER my 2

zset

有序集合, 有序集合中的内容也是不可以重复的。并且存储的数据也是redis最基础的string数据。但是在存储数据的同时还增加了一个score。表示分值。redis就是通过这个score作为排序的规则的。

常用操作

ZADD key s1 m1 s2 m2 ...

ZRANGE key start stop [withscores]
ZREVRANGE key start stop
ZCARD key
ZCOUNT key min max
ZINCRBY key score member
ZSCORE key m

示例:

ZADD fam 1 sylar 2 alex 3 tory
ZRANGE fam 0 -1 WITHSCORES
ZREVRANGE fam 0 -1 WITHSCORES
ZINCRBY fam 10 alex
ZADD fam 100 alex
ZSCORE fam alex
ZCARD fam

redis还有非常非常多的操作。我们就不一一列举了。各位可以在网络上找到非常多的资料。

各位大佬们注意。数据保存完一定要save一下, 避免数据没有写入硬盘而产生的数据丢失

3. python搞定redis

python处理redis使用专用的redis模块。同样的, 它也是一个第三方库.

pip install redis

获取连接(1)

from redis import Redis

red = Redis(host="127.0.0.1",
            port=6379,
            db=0,
            password=123456,
            decode_responses=True)

获取连接(2)

pool = redis.ConnectionPool(
        host="127.0.0.1",
        port=6379,
        db=0,
        password=123456,
        decode_responses=True
)

r = redis.Redis(connection_pool=pool)
print(r.keys())

我们以一个免费代理IP池能用到的操作来尝试一下redis


red.set("sylar", "邱彦涛")

print(red.get("sylar"))

lst = ["张三丰", "张无忌", "张翠山", "张娜拉"]
red.lpush("names", *lst)

result = red.lrange("names", 0, -1)
print(result)

red.zadd("proxy", {"192.168.1.1": 10, "192.168.1.2": 10})
red.zadd("proxy", {"192.168.1.3": 10, "192.168.1.6": 10})
red.zadd("proxy", {"192.168.1.4": 10, "192.168.1.7": 10})
red.zadd("proxy", {"192.168.1.5": 10, "192.168.1.8": 10})

red.zadd("proxy", {"192.168.1.4": 100})

red.zincrby("proxy", -10, "192.168.1.4")

red.zrem("proxy", "192.168.1.4")

c = red.zcard("proxy")
print(c)

r = red.zrangebyscore("proxy", 0, 100)
print(r)

r = red.zrevrange('proxy', 0, 100)

r = red.zscore("proxy", "192.168.1.4")
print(r)

Original: https://blog.csdn.net/weixin_40743639/article/details/122792696
Author: 一个小黑酱
Title: 逆向爬虫18 Scrapy抓取全站数据和Redis入门

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/789831/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

第十三届蓝桥杯省赛JavaA组 D 题、Java C 组 G 题、Python C 组 G题——GCD（AC）

1.GCD 给定两个不同的正整数 a , b a,b a ,b 求一个正整数k k k 使得 g c d ( a + k , b + k ) gcd(a+k,b+k)g c d (…

Python 2023年11月9日
0037
Python中的True和False详解

Python中的 True和 False总是让人困惑，一不小心就会用错，本文总结了三个易错点，分别是逻辑取反、if条件式和pandas.DataFrame.loc切片中的条件式。 …

Python 2023年8月15日
00137
将python项目打包成exe和安装包

目录打包Flask项目 * 写一个简单的Flask项目下载pyinstaller 进入到项目路径下，执行运行exe，测试使用nsis把文件夹打包成windows的安装包 *…

Python 2023年8月10日
0075
pytest学习——pytest插件的7种用法

1.pytest-repeat 重复跑安装包 pip install pytest-repeat 第一种用法：装饰器 @pytest.mark.repeat(次数) 示例代码 …

Python 2023年9月12日
0055
科研小白-day1（Linux系统安装miniconda，利用conda下载fastqc等）

什么是conda？ Conda 是一个开源的软件包管理系统和环境管理系统，用于安装多个版本的软件包及其依赖关系，并在它们之间轻松切换。我的理解是conda是一个类似于应用市场的AP…

Python 2023年9月7日
0083
基于python的二分搜索和例题

二分搜索二分概念二分搜索是一种在有序数组中查找某一特定元素的搜索算法。搜索过程从数组的中间元素开始，如果中间元素正好是要查找的元素，则搜索过程结束；如果某一特定元素大于或者…

Python 2023年6月10日
0077
MAE详解

目录一、介绍二、网络结构 1. encoder 2. decoder 3. LOSS 三、实验全文参考：论文阅读笔记：Masked Autoencoders Are Scal…

Python 2023年10月27日
0022
《微SaaS创富周刊》第4期：2023年50+个微SaaS创业思路、时间管理APP 为我创收60万美元

导读：大家好！第4期《微SaaS创富周刊》问世啦！本周刊面向独立开发者、早期创业团队，报道他们主要的产品形态——微SaaS如何变现的最新资讯和经验分享等。所谓微SaaS，就是&#…

Python 2023年11月7日
0080
Python数据分析学习笔记（二）——数据清洗及特征处理

一、缺失值的观察与处理通常拿到的数据中含有很多缺失值，需要经过数据清洗达到可以分析的标准。处理缺失值一般有三种思路：将缺失值置为一个常数使用函数DataFrame.filln…

Python 2023年8月16日
0059
如何通过Python实现蒙特卡罗模拟算法

本文主要介绍蒙特卡罗模拟算法，以及如何通过Python来模拟问题。文章目录 * – 什么是蒙特卡罗（Monte Carlo）方法？ – 案例1: π \p…

Python 2023年9月2日
0060
PySpark | Spark框架简述 | Spark环境搭建

文章目录 * – + 一.Spark框架简述 + * 1.Spark是什么 * 2.Spark与Hadoop的对比 * 3.Spark的四大特点 * 4.Spark框架…

Python 2023年11月8日
0046
华为云平台部署教程之CNAVRM的安装

本教程仅含华为云平台搭建部署中CNA和VRM的安装，请按需求选择查看本文。一、前期准备 1、硬件服务器*4 交换机*3 网线个人PC机 2、软件 PC机系统（win7/win…

Python 2023年10月14日
0082
PYGAME – 小游戏(搅拌车快停下)

基于pygame制作，和学习视频中的素材稍微不一样(家里的小朋友喜欢搅拌车和歌曲(来跳舞))。游戏玩法如下：背景是机场，上面有五个位置卡车以供停车卡车以随机速度(带方向)进行移…

Python 2023年9月21日
0046
python（pandas + numpy）数据分析的基础操作

文章目录数据 NaN 值排查，统计，排序基本统计方法 * 四种基本统计方法分组 data.groupby 聚合 data.agg() apply transform 透视图 …

Python 2023年8月16日
0062
Python制作爱心跳动代码，这就是程序员的烂漫吗

前言最近有个剧挺火的就是那个程序员的剧，叫什么温暖你来着咳咳，剧我没怎么看，但是吧，里面有个爱心代码，最近可是蛮火的，今天就用Python来尝试一下吧怎么说呢，用这个表白也…

Python 2023年8月3日
0092
java中GC的日志认识详解

不同的垃圾回收器他们的日志都是完成不一样的，看懂日志是解决和发现问题的重中之重。 Parallel Scavenge + Parallel Old 日志启动参数 -XX:+Us…

Python 2023年10月17日
0035

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

逆向爬虫18 Scrapy抓取全站数据和Redis入门

逆向爬虫18 Scrapy抓取全站数据和Redis入门

一、全站数据抓取

1. 什么是抓取全站数据？

2. Scrapy传统的全站数据抓取

开始动手：

代码说明：

ershouche.py文件

; settings.py文件

源码展示：

ershouche.py源码

3. Scrapy CrawlSpider全站数据抓取

开始动手：

代码说明：

ershou.py文件

; 源码展示：

ershou.py源码

4. 小结

二、Redis简单使用

1. 安装redis

2. redis常见数据类型

string

hash

list

set

zset

3. python搞定redis

大家都在看