爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法

2023年10月4日下午6:58 • Python • 阅读 34

文章目录

第十九章 crawlspider讲解
*
1. 古诗文案例crawlspider
–
2. 小程序社区案例
–
3. 汽车之家案例（二进制数据爬取）
–
4. 其他方法爬取图片
–

第十九章 crawlspider讲解

今天我们来讲一下crawlspider，我们原则上先掌握最基础的，然后是高级一点的。我们将上一次的古诗文案例用crawspider来处理一下。

1. 古诗文案例crawlspider

创建项目文件：
终端输入：scrapy startproject gs20210217 回车
创建crawlspider爬虫项目，语句：
cd 到gs20210217文件夹中，终端输入：

scrapy genspider -t crawl &#x722C;&#x866B;&#x7684;&#x540D;&#x5B57; &#x57DF;&#x540D;

然后输入创建项目语句，创建项目：

scrapy genspider -t crawl cgs https://www.gushiwen.cn/

Use "scrapy" to see available commands

D:\work\&#x722C;&#x866B;\Day21\my_code>scrapy startproject gs20210217
New Scrapy project 'gs20210217', using template directory 'd:\python38\lib\site-packages\scrapy\template
s\project', created in:
    D:\work\&#x722C;&#x866B;\Day21\my_code\gs20210217

You can start your first spider with:
    cd gs20210217
    scrapy genspider example example.com

D:\work\&#x722C;&#x866B;\Day21\my_code>cd gs20210217

D:\work\&#x722C;&#x866B;\Day21\my_code\gs20210217>scrapy genspider -t crawl cgs https://www.gushiwen.cn/
Created spider 'cgs' using template 'crawl' in module:
  gs20210217.spiders.cgs

D:\work\&#x722C;&#x866B;\Day21\my_code\gs20210217>

项目创建成功。

爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法

我们可以看到crawlspider比scrapyspider，继承的父类发生了变化，导入的模块多了一个。造类里面多了一个Rules:

class CgsSpider(CrawlSpider):
    name = 'cgs'
    allowed_domains = ['https://www.gushiwen.cn/']
    start_urls = ['http://https://www.gushiwen.cn//']

    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )

Rule定义提取url的规则，LinkExtractor是链接提取器。

allow=r’Items/’这个用来存放url (用到正则表达式)
callback=’parse_item’是回调函数，处理请求结果。
follow=True继续跟进下一页
下面我们通过案例来学习。

1.1 需求

仍然是爬取古诗文的详情。我们需要处理的事情一个是翻页，第二个是爬取译文。
我们需要列表页的url地址

https://www.gushiwen.cn/  # &#x7B2C;&#x4E00;&#x9875;
https://www.gushiwen.cn/default_1.aspx # &#x7B2C;&#x4E00;&#x9875;
https://www.gushiwen.cn/default_2.aspx # &#x7B2C;&#x4E8C;&#x9875;
https://www.gushiwen.cn/default_3.aspx # &#x7B2C;&#x4E09;&#x9875;

另一个是详情页的url地址

https://so.gushiwen.cn/shiwenv_7c14409ca751.aspx  # &#x5217;&#x8868;&#x9875;&#x7B2C;&#x4E00;&#x9875;&#x7B2C;&#x4E00;&#x9996;&#x8BD7;&#x7684;&#x8BE6;&#x60C5;&#x9875;
https://so.gushiwen.cn/shiwenv_0184c31a9e01.aspx # &#x5217;&#x8868;&#x9875;&#x7B2C;&#x4E00;&#x9875;&#x7B2C;&#x4E8C;&#x9996;&#x8BD7;&#x7684;&#x8BE6;&#x60C5;&#x9875;

我们的顺序是先爬第一页，第一页的第一首，第二首，完了，翻页。。。

1.2 处理

下面注意看代码中的注释：

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class CgsSpider(CrawlSpider):
    name = 'cgs'
    allowed_domains = ['https://www.gushiwen.cn/']
    start_urls = ['http://https://www.gushiwen.cn//']

    rules = (
        # &#x8D1F;&#x8D23;&#x5217;&#x8868;&#x9875;
        Rule(LinkExtractor(allow=r'https://www.gushiwen.cn/default_1.aspx'), follow=True),
        # &#x8D1F;&#x8D23;&#x8BE6;&#x60C5;&#x9875;
        Rule(LinkExtractor(allow=r'https://so.gushiwen.cn/shiwenv_7c14409ca751.aspx'), callback='parse_item', )
    )  # &#x8BE6;&#x60C5;&#x9875;&#x4E0D;&#x9700;&#x8981;&#x7FFB;&#x9875;&#xFF0C;&#x6240;&#x4EE5;&#x53BB;&#x6389;follow=True
       # &#x5217;&#x8868;&#x9875;&#x4E0D;&#x9700;&#x8981;&#x6570;&#x636E;&#xFF0C;&#x53EA;&#x9700;&#x8981;&#x7FFB;&#x9875;&#xFF0C;&#x6240;&#x4EE5;&#x4E0D;&#x9700;&#x8981;&#x56DE;&#x8C03;&#x51FD;&#x6570;&#xFF0C;&#x53BB;&#x6389;callback='parse_item'

    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        return item

下面我们需要把url里面的跟随翻页变化的字符用正则表达式来匹配一下：

 # &#x8D1F;&#x8D23;&#x5217;&#x8868;&#x9875; &#x6B63;&#x5219;&#x5339;&#x914D;1-10=>\d+
        Rule(LinkExtractor(allow=r'https://www.gushiwen.cn/default_\d+.aspx'), follow=True),
        # &#x8D1F;&#x8D23;&#x8BE6;&#x60C5;&#x9875; &#x6B63;&#x5219;&#x5339;&#x914D;7c14409ca751 =>\w+
        Rule(LinkExtractor(allow=r'https://so.gushiwen.cn/shiwenv_\w+.aspx'), callback='parse_item', )

\d可以匹配0-9的数字，+表示至少匹配一次。\W可以匹配大小写字母和数字，+也是至少匹配一次。关于正则表达式的只是请参考我的博客[爬虫(05)正则表达式]。(https://blog.csdn.net/m0_46738467/article/details/111587355)
这样我们就将列表页和详情页的url用正则表达式匹配完成。crawlspider只适合简单一些的url，如果url构成比较复杂，就用一般的爬虫方式就可以了。

1.3 解析

我们只需要详情页的译文，我们把第19次博客案例解析译文的代码复制过来就可以了。

    def parse_item(self, response):
        item = {}
        #item['domain_id'] = response.xpath('//input[@id="sid"]/@value').get()
        #item['name'] = response.xpath('//div[@id="name"]').get()
        #item['description'] = response.xpath('//div[@id="description"]').get()
        shang = response.xpath('//div[@class="contyishang"]/p/text()').extract()
        content_shang = ''.join(shang).strip()  # &#x5904;&#x7406;&#x7A7A;&#x683C;&#x53CA;&#x6362;&#x884C;&#x7B26;
        item['detail_content'] = content_shang  # &#x52A0;&#x5165;items
        print(item)

        return item

去settings里面设置一下：

LOG_LEVEL = 'WARNING'
ROBOTSTXT_OBEY = False
DEFAULT_REQUEST_HEADERS = {
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36',
  'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
  'Accept-Language': 'en',
}

然后我们创建一个start文件：

from scrapy import cmdline
cmdline.execute('scrapy crawl cgs'.split())

我们运行一下：

{'detail_content': '&#x8BD1;&#x6587;&#x5BCC;&#x5BB6;&#x7684;&#x5B50;&#x5F1F;&#x4E0D;&#x4F1A;&#x997F;&#x6B7B;&#xFF0C;&#x6E05;&#x5BD2;&#x7684;&#x8BFB;&#x4E66;&#x4EBA;&#x5927;&#x591A;&#x8D3B;&#x8BEF;&#x81EA;&#x8EAB;&#x3002;&#x97E6;&#x5927;&#x4EBA;&#x4F60;&#x53EF;&#x4EE5;&#x9759;&#x9759;&#x5730;&#x7EC6;&#x542C;&#xFF0C;&#x6211;&#x628A;&#x81EA;&#x5DF1;&#x7684;&#x5F80;&#x4E8B;&#x5411;&#x4F60;&#x76F4;&#x9648;&#x3002;&#x6211;&#x5728;&#x5C11;&#x5E74;&#x65F6;&#x5019;&#xFF0C;&#x65E9;&#x5C31;&#x5145;&#x5F53;&#x53C2;&#x89C2;&#x738B;&#x90FD;&#x7684;&#x6765;&#x5BBE;&#x3002;&#x5148;&#x540E;&#x8BFB;&#x719F;&#x4E07;&#x5377;&#x4E66;&#x7C4D;&

Original: https://blog.csdn.net/m0_46738467/article/details/113831531
Author: 辉子2020
Title: 爬虫(21)crawlspider讲解古诗文案例补充+小程序社区案例+汽车之家案例+scrapy内置的下载文件的方法

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791230/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PyCharm配置Anaconda虚拟环境及Conda常用命令介绍

一、安装Anaconda： Anaconda：Python包管理器，是一个开源的Python发行版，包含了conda、Python等180多个科学包及其依赖项。官网：https:/…

Python 2023年5月25日
0064
11月编程排行榜来了，Python依旧占据榜首

11月Tiobe编程排行榜已更新，一起看看本月各大编程语言有何新进展。 11月Tiobe编程排行榜前15名 TOP 10编程语言TIOBE指数走势以上素材来自https://ww…

Python 2023年9月27日
0045
matplotlib使用及相关函数参数总结

matplotlib python-2D绘图使用的套件。 pylab是matplotlib面向对象绘图的一个接口，语法和matlab相近。 from pylab import * …

Python 2023年8月29日
0020
171-有趣的OpenAI的chatGPT小实验

最近玩了一下chatGPT 问了他很多问题然后我问了一个问题帮我想10个帮女朋友过生日的办法然后AI就回复了我10种然后我继续问了我说再来10个他又想了10种，所以我特…

Python 2023年11月4日
0052
为什么最近每份 Android 简历都说 “熟悉 MQTT 协议”？

请点赞关注，你的支持对我意义重大。🔥 Hi，我是小彭。本文已收录到GitHub · AndroidFamily 中。这里有 Android 进阶成长知识体系，有志同道合的朋友，关注…

Python 2023年10月22日
0026
【记录】在Linux上手动安装NCL（不使用conda）

先放一下如何优雅的使用conda安装NCL conda create -n ncl_stable -c conda-forge ncl source activate ncl_st…

Python 2023年9月8日
0042
课程笔记1：Scrapy框架的基础用法

简介：Scrapy是一个基于Twisted的异步处理框架，是纯Python实现的爬虫框架。优势：架构清晰、模块之间耦合度程度低，可扩展性强，可以灵活完成各种需求。只需要定制开发几…

Python 2023年10月2日
0063
星计划—水晶球（1）（函数）

☺本文作者：CSDN–小菜星航，15岁的小码农一枚。♥♥♥个人主页：小菜星航–博客主页♥♥♥✔点赞+ ✔收藏+ ✔评论=（一键三连）♥入选新晋作者榜第17名…

Python 2023年8月11日
0031
python pandas处理数据的优点_Python pandas之数据处理

数据写入我们可以将数据写入到文件中进行永久性的保存，支持的文件格式有HTML、CSV、JSON、Excel。 csv是最为常见的以纯文本文件存储数据文件的格式，它的优点是通用性很…

Python 2023年8月17日
0068
Python : Xpath简介及实例讲解

文章目录一、Xpath简介二、Xpath语法规则 * 语法规则标签定位属性定位索引定位取文本内容三、语法规则练习前言 CSDN上已经有很多大佬发过Xpath，而且讲…

Python 2023年8月1日
0035
Django 之复制粘贴必备命令(补)

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 园子的商业化努力-困…

Python 2023年6月9日
0044
三步解决error: Microsoft Visual C++ 14.0 or greater is required. Get it with “Microsoft C++ Build Tools“

最近购置了一台新电脑，在anaconda prompt中使用pip安装python程序包报错，试了很多网上的方法都没成功。现在终于解决啦，希望能帮助后来人。我在prompt中运行…

Python 2023年8月2日
0044
python_爬虫 21 Scrapy框架之（七）下载中间件

目录 Downloader Middlewares(下载器中间件) 一、process_request(self, request, spider) 二、process_respo…

Python 2023年10月4日
0056
【Python】关于Django如何处理前后端分离时的POST请求

在目前的大环境趋势下，前后端分离已经是项目开发的主流，而Django在后端领域也受到众多程序员的青睐，那么在前后端分离开发时，经常会遇到django本身内置的csrf拦截保护机制本…

Python 2023年10月31日
0044
【图像处理】tensor 与 PIL Image/ numpy 的相互转换

numpy 与 tensor 的相互转换首先以 OpenCV读取图像，返回的是一个代表图像的NumPy数组，采用的格式是 H×W×C，通道顺序为BGR。 import cv2 p…

Python 2023年8月23日
0037
3小时！开发ChatGPT微信小程序

啊哦~你想找的内容离你而去了哦内容不存在，可能为如下原因导致： ① 内容还在审核中 ② 内容以前存在，但是由于不符合新的规定而被删除 ③ 内容地址错误 ④ 作者删除了内容。可…

Python 2023年8月9日
0053

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30