scrapy笔记二(CrawlSpider爬取图片并存储)

就是肝

1.Rule , Link Extractors多用于全站的爬取

Rule是在定义抽取链接的规则
follow是一个布尔值,指定了根据该规则从response提取的链接是否需要跟进。 如果callback 为None,follow 默认设置为True,否则默认为False。
当follow为True时,爬虫会从获取的response中取出符合规则的url,再次进行爬取,如果这次爬取的response中还存在符合规则的url,则再次爬取,无限循环,直到不存在符合规则的url。
当follow为False是,爬虫只从start_urls 的response中取出符合规则的url,并请求。
2.LinkExtractor单独使用

可用来提取完整url

1.导入

from scrapy.spiders.crawl import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor

2.ruel制定

start_urls = ['http://chahua.org/']
    rules = {

        Rule(LinkExtractor(allow=r"http://www.chahua.org/drawn/detail.php?id=554887&hid=3"), follow=False,callback=

Original: https://blog.csdn.net/qq_51598376/article/details/113761415
Author: 丹尼尔•卡尼�
Title: scrapy笔记二(CrawlSpider爬取图片并存储)

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/791110/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球