一个基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)。
Spider
类定义了如何爬取某个(或某些)网站,包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是定义爬取的动作及分析某个网页(或者是有些网页)的地方。
每个 项目管道
组件是一个实现简单方法的Python类。他们接收一个项目并对其执行操作,还决定该项目是否应该继续通过流水线或被丢弃并且不再被处理。
Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。
项目管道的典型用途是:
- 清理HTML数据
- 验证抓取的数据(检查项目是否包含特定字段)
- 检查重复(并删除)
- 将刮取的项目存储在数据库中
首先试着创建了一个Scrapy项目
1.在命令行输入 scrapy startproject internship
,建立Scrapy项目,提示如图即成功
Original: https://blog.csdn.net/weixin_39854730/article/details/113316756
Author: weixin_39854730
Title: scrapy parse不执行_爬虫进阶——scrapy基本使用
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/789835/
转载文章受原作者版权保护。转载请注明原作者出处!