就是肝
1.Rule , Link Extractors多用于全站的爬取
Rule是在定义抽取链接的规则
follow是一个布尔值,指定了根据该规则从response提取的链接是否需要跟进。 如果callback 为None,follow 默认设置为True,否则默认为False。
当follow为True时,爬虫会从获取的response中取出符合规则的url,再次进行爬取,如果这次爬取的response中还存在符合规则的url,则再次爬取,无限循环,直到不存在符合规则的url。
当follow为False是,爬虫只从start_urls 的response中取出符合规则的url,并请求。
2.LinkExtractor单独使用
可用来提取完整url
1.导入
from scrapy.spiders.crawl import CrawlSpider,Rule
from scrapy.linkextractors import LinkExtractor
2.ruel制定
start_urls = ['http://chahua.org/']
rules = {
Rule(LinkExtractor(allow=r"http://www.chahua.org/drawn/detail.php?id=554887&hid=3"), follow=False,callback=
Original: https://blog.csdn.net/qq_51598376/article/details/113761415
Author: 丹尼尔•卡尼�
Title: scrapy笔记二(CrawlSpider爬取图片并存储)
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/791110/
转载文章受原作者版权保护。转载请注明原作者出处!