scrapy parse不执行_爬虫进阶——scrapy基本使用

一个基本的爬虫只需要两部分组成:Spider(爬虫)、Pipeline(管道)。

Spider类定义了如何爬取某个(或某些)网站,包括了爬取的动作(例如:是否跟进链接)以及如何从网页的内容中提取结构化数据(爬取item)。 换句话说,Spider就是定义爬取的动作及分析某个网页(或者是有些网页)的地方。

每个 项目管道组件是一个实现简单方法的Python类。他们接收一个项目并对其执行操作,还决定该项目是否应该继续通过流水线或被丢弃并且不再被处理。

Item管道的主要责任是负责处理有蜘蛛从网页中抽取的Item,它的主要任务是清洗、验证和存储数据。当页面被蜘蛛解析后,将被发送到Item管道,并经过几个特定的次序处理数据。

项目管道的典型用途是:

  • 清理HTML数据
  • 验证抓取的数据(检查项目是否包含特定字段)
  • 检查重复(并删除)
  • 将刮取的项目存储在数据库中

首先试着创建了一个Scrapy项目

1.在命令行输入 scrapy startproject internship,建立Scrapy项目,提示如图即成功

Original: https://blog.csdn.net/weixin_39854730/article/details/113316756
Author: weixin_39854730
Title: scrapy parse不执行_爬虫进阶——scrapy基本使用

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/789835/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球