【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架

Scrapy官方文档

本文以 quotes.toscrape.com 为例进行简单的数据爬取,Quotes to Scrape 是 Scrapy 官方文档中使用的示例网站,数据项较为简单,适合入门

网站分析

http://quotes.toscrape.com/ 是一个名句摘抄的网站,每段摘抄都标注了出处、标签

【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架
Command + Option + I,查看页面元素,接下来我们会根据元素进行数据
【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架

; 创建项目

在终端输入

scrapy startproject quotes

quotes 是项目名称

目录结构:

【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架

Spiders

Spiders 就是用户编写的,用来解析页面、获取数据的类
切换到项目目录

cd quotes

创建 Spider

scrapy genspider QuotesSpider quotes.toscrape.com

会在 spiders 目录下创建一个 QuotesSpider.py 文件

【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架

name 是 Spider 名
allowed_domains 是 可爬取的域名列表,如果启用了 OffsiteMiddleware (默认启用),就不跟踪不在此列表中的URL
start_urls 从这个列表中的URL开始爬取,可以有多个URL
parse(self, response) 是默认回调

下面开始编写我们自己的Spider

爬取名言摘抄

编写回调,根据页面元素解析数据项

    def parse(self, response):

        all_texts = response.css('.text')

        all_authors = response

Original: https://blog.csdn.net/sinat_38625964/article/details/115872318
Author: Liu还在努力中
Title: 【Scrapy + Elasticsearch 搜索引擎实战】(二)Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/791074/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球