Scrapy 爬虫框架学习DAY 1

2023年10月5日下午8:40 • Python • 阅读 49

Scrapy 爬虫框架学习 DAY 1

一、爬虫概要

首先我们要了解什么是爬虫

爬虫： 网络爬虫是一种按照一定规则，自动抓取网页信息的程序或脚本。

用一个通俗易懂的比喻就是：如果把互联网比作一张网，那么网络爬虫就可以认为是一个在网上爬来爬去的小虫子，他通过网页的链接地址来寻找网页，通过特定的搜索算法来确定路线。通常从网站的某一个页面开始，爬取网页的内容，找到在网页中的链接地址，然后通过这些链接地址来确定下一个网页，这样一直循环下去，知道把这个网站所有网页都抓取完为止。

那么什么是Scarpy爬虫框架呢，我的个人理解就是：Scrapy，Python开发的一个快速、 高层次的屏幕抓取和 web抓取框架，用于抓取web站点并从页面中提取结构化的数据。Scrapy用途广泛，可以用于 数据挖掘、监测和 自动化测试，其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，后台也应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy吸引人的地方在于它是一个框架，任何人都可以根据需求方便的修改。它也提供了多种类型爬虫的基类，如BaseSpider、sitemap爬虫等，最新版本又提供了web2.0爬虫的支持。

二、爬虫基本原理

在网络上寻找了一个比较好懂的图，见下图。

网络爬虫的基本过程

三、Scrapy爬虫框架

Scrapy 是由五个基本组件组成的，他们分别是

1、调度器（Scheduler）；

调度器，比较好懂的方式就是：把它理解成一个队列，里面放你要爬取的URL（可以是：网址或者是链接），由他确定下一个网页的是什么，同时去除重复的网址（不做重复的操作）。所以我们用户可以根据自己的需求来定制调度器。

2、下载器（Downloader）;

下载器，是所有组件中负担中最大的，它用于高度地下载网络上的资源。Scrapy的下载器代码不会太复杂，但效率高，主要的原因是Scrapy下载器是建立在twisted这个高效的异步模型上的。

3、爬虫（Spider）；

爬虫，是用户最关心的部分。我们需要很熟练的了解正则表达式，用于从特定的网页提取自己需要的信息，即所谓的实体（Item）。然后从中提取更多的链接，让爬虫继续爬下一个页面

4、实体管道（Item Pipline）；

实体管道，用于处理爬虫（Sprider）提取的实体。主要功能是持久化实体，验证实体的有效性、清除不需要的信息。

5、Scrapy引擎（Scrapy Engine）；

Scrapy是整个框架的核心。他用来控制调试器、下载器、爬虫。实际上，这个其实就相当于计算机的CPU，它控制着整个流程，是Scrapy的大脑。

Original: https://blog.csdn.net/qq_45941367/article/details/115214594
Author: 不安分实验室
Title: Scrapy 爬虫框架学习DAY 1

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792064/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python中”Clipping input data to the valid range for imshow with RGB data ”的问题解决

何时出现错误提示 :”Clipping input data to the valid range for imshow with RGB data ([0&#8230…

Python 2023年8月30日
0043
【人工智能】Mindspore框架中保存加载模型

前言 MindSpore着重提升易用性并降低AI开发者的开发门槛，MindSpore原生适应每个场景包括端、边缘和云，并能够在按需协同的基础上，通过实现AI算法即代码，使开发态变得…

Python 2023年10月27日
0039
python dataframe索引转成列_Pandas之DataFrame对象的列和索引之间的转化

约定： import pandas as pd DataFrame对象的列和索引之间的转化我们常常需要将DataFrame对象中的某列或某几列作为索引，或者将索引转化为对象的列。…

Python 2023年8月7日
0055
Python中Numpy及Matplotlib使用

Python中Numpy及Matplotlib使用 1. Jupyter Notebooks 作为小白，我现在使用的python编辑器是 Jupyter Notebook,非常的好…

Python 2023年5月25日
0059
【Python练习】task-06 函数的练习和实验

目录 1.实现九九乘法表的函数（无参函数，结果直接在函数中打印出来），在主函数中调用函数 2.实现斐波那契数列的函数，参数给定输出的个数，并在主函数中调用输出结果 3.一球从100…

Python 2023年8月28日
0072
django中聚合函数查询和分组聚合查询

聚合函数：Max，Min，Count首字母都要大写，且后面的参数加 ‘ ‘ 号，不然会报错，还有就是，如果是Count(‘ )的话，需要加个别名…

Python 2023年6月11日
0067
使用pygame实现音乐播放器（四）

接下来，我们要实现播放进度。实现原理就不是不断的画白色的矩形，根据播放时间和歌曲总时长的比例计算矩形当前宽度。要解决的问题：如何获取mp3的总时长如何不断重复画矩形？如何画矩…

Python 2023年9月23日
0058
pygame.surface.blit()方法4个参数的使用方法

pygame.surface.blit方法将一个图像(Surface实例)绘制到另一个图像(Surface实例)上。如screen是一个Surface实例，方法blit具体使用方法…

Python 2023年9月19日
0065
Spring Boot(五十五)：基于redis防止接口恶意刷新和暴力请求

您好！感谢您的提问。根据您描述的情况，似乎是在使用 Starter Data 时遇到了依赖解析问题。首先，请确保您的项目中已经正确添加了的依赖。在您的项目的 pom.xml 文…

Python 2023年11月8日
0043
Pytest + Selenium + Allure + Jenkins搭建简单自动化框架

1.环境搭建1.1 安装python，配置环境变量下载地址：https://www.python.org/downloads/下载需要的版本（3.7以上） 1.2安装pycharm…

Python 2023年9月9日
0058
案例：绘制Matplotlib动态图

学习 zhenguo 老师的 Python 课已经一个星期了，自己感觉已经学有小成，刚好昨天老师在接单群里发了一个 100元的单子，我毫不犹豫的接了，不仅可以检验自己能否学以致用，…

Python 2023年9月2日
0054
史上最全 | BEV感知算法综述（基于图像/Lidar/多模态数据的3D检测与分割任务）…

点击下方卡片，关注” 自动驾驶之心“公众号 ADAS巨卷干货，即可获取点击进入→ 后台回复【BEV综述】获取论文！后台回复【ECCV2022】获取EC…

Python 2023年8月1日
0039
Pandas（二）—— 索引、分组

Python模块 —— Pandas Pandas（二）—— 索引、分组 * 三、索引 – 3.1 索引器 + 3.1.1 列索引、行索引 3.1.2 loc索引器、i…

Python 2023年8月7日
0069
如何制作验证码

推导步骤1：在img标签的src属性里放上验证码的请求路径 补充1.img的src属&amp…

Python 2023年6月9日
0077
KeyError: ‘module_list.85.Conv2d.weight’ #657

KeyError: ‘module_list.85.Conv2d.weight’ #657 原创信息所话事人2022-08-08 17:07:37博主文章…

Python 2023年5月24日
00104
Django实现数据表数据插入（创建Model实例）

在前一节，我们利用 Model 模型类创建了 index 应用所需的三张数据表，在本节我们介绍如何实现在 Django 项目中创建 Model 的实例对象，即向数据表中插入数据。 …

Python 2023年8月11日
0065

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy 爬虫框架学习DAY 1

Scrapy 爬虫框架学习 DAY 1

大家都在看