【Scrapy + Elasticsearch 搜索引擎实战】（二）Scrapy爬虫框架

2023年10月4日下午2:14 • Python • 阅读 38

Scrapy官方文档

本文以 quotes.toscrape.com 为例进行简单的数据爬取，Quotes to Scrape 是 Scrapy 官方文档中使用的示例网站，数据项较为简单，适合入门

网站分析

http://quotes.toscrape.com/ 是一个名句摘抄的网站，每段摘抄都标注了出处、标签

【Scrapy + Elasticsearch 搜索引擎实战】（二）Scrapy爬虫框架

Command + Option + I，查看页面元素，接下来我们会根据元素进行数据

; 创建项目

在终端输入

scrapy startproject quotes

quotes 是项目名称

目录结构：

Spiders

Spiders 就是用户编写的，用来解析页面、获取数据的类
切换到项目目录

cd quotes

创建 Spider

scrapy genspider QuotesSpider quotes.toscrape.com

会在 spiders 目录下创建一个 QuotesSpider.py 文件

name 是 Spider 名
allowed_domains 是可爬取的域名列表，如果启用了 OffsiteMiddleware （默认启用），就不跟踪不在此列表中的URL
start_urls 从这个列表中的URL开始爬取，可以有多个URL
parse(self, response) 是默认回调

下面开始编写我们自己的Spider

爬取名言摘抄

编写回调，根据页面元素解析数据项

    def parse(self, response):

        all_texts = response.css('.text')

        all_authors = response

Original: https://blog.csdn.net/sinat_38625964/article/details/115872318
Author: Liu还在努力中
Title: 【Scrapy + Elasticsearch 搜索引擎实战】（二）Scrapy爬虫框架

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791074/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

＜Linux＞进度条小程序和git使用详解

进度条小程序和git使用详解文章目录进度条小程序和git使用详解一、Linux第一个小程序 – 进度条 * 1.\r && \n 2.行缓冲 3….

Python 2023年11月5日
0042
python精灵模块示例代码

精灵模块是一个基于pygame的游戏模块，可以让我们使用python时轻松实现动画效果和游戏，下面给出一些例子：背景化身弹球.rar:https://url18.ctfile….

Python 2023年9月19日
0070
Bert不完全手册8. 预训练不要停！Continue Pretraining

paper: Don’t stop Pretraining: Adapt Language Models to Domains and Tasks GitHub：htt…

Python 2023年10月22日
0064
scrapy框架中的Request对象以及Response对象的介绍【python爬虫入门进阶】（19）

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年10月2日
0051
使用matplotlib时出现“importError: DLLload failed:找不到指定的模块”错误，太坑了

今天用windows10，想写个python脚本要用到matplotlib，结果报 from matplotlib._path import（ importError: DLLlo…

Python 2023年9月3日
0039
递归门控卷积HorNet（gn_conv）阅读笔记

HorNet: Efficient High-Order Spatial Interactions with Recursive Gated Convolutions ECCV20…

Python 2023年10月8日
0052
python数据分析基础007 -利用pandas带你玩转excel表格（中上篇）

### 回答1： Python_是一种功能强大的编程语言，可以用于各种 _数据分析_任务。而在 _Python_的 _数据分析_工具库中， _pandas_是最受欢迎和广泛使用的工…

Python 2023年8月2日
0038
爬虫日记(27)：通过浏览器抓取数据

昨天测试一个网站，它需要SSL连接，并且需要SSL验证，这样对于采用scrapy或requests库来说，都比较麻烦，很容易就出错，比如下面的例子： #爬虫日记-蔡军生（qq:90…

Python 2023年10月5日
0059
chatGPT代码写的有点好啊，程序员要失业了？

最近，这个聊天机器人有点火啊，是OpenAI推出的chatGPT，它能够回答各种各样的问题，还能生成代码，修复bug。 ChatGPT 是一个基于对话的原型 AI 聊天机器人，12…

Python 2023年11月4日
0039
1、numpy库介绍

Numpy库介绍 NumPy是一个功能强大的Python库，主要用于对多维数组执行计算。NumPy这个词来源于两个单词– Numerical和Python。NumPy提…

Python 2023年8月23日
0035
过年了，用 PyQt5 生成一副春联吧…

由于篇幅有限，获取完整源代码的方法在文章的末尾。 [En] Due to the limited space, the way to obtain the complete sou…

Python 2023年5月24日
0074
笔记11-Django数据分页- Paginator 与 Page 类

对于Django提供的数据分页的技术，Paginator类用于对列进行一页n条数据的分页运算，也就是分多少页，Page类用于表示第m页的数据，也就是一页显示多少数据Paginato…

Python 2023年8月5日
0044
Twikoo私有化部署教程–迁移腾讯云

备份数据私有化部署创建容器导入数据重新配置twikoo面板设置引入前端CDN Nginx https反代http 作者：小牛呼噜噜 | https://xiaoniuhu…

Python 2023年10月21日
0069
猿创征文｜Python基础——Visual Studio版本——pytest

Python基础——Visual Studio版本——pytest 目录 Python基础——Visual Studio版本——pytest pytest概述 pytest特点环…

Python 2023年9月11日
0036
plotly 代码存储

import plotly.graph_objects as go import plotly import plotly.offline as pltoff def plot_m…

Python 2023年6月12日
0065
对抗攻击与防御入门

目录一、深度学习简介二、对抗攻击与防御算法介绍三、对抗样本应用以及工具箱简介四、对抗攻击算法的衡量标准一、深度学习简介深度学习（DL，Deep Learning）是机器…

Python 2023年9月29日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

【Scrapy + Elasticsearch 搜索引擎实战】（二）Scrapy爬虫框架

网站分析

; 创建项目

Spiders

爬取名言摘抄

大家都在看