Scrapy 爬虫框架初体验一 —— 网络爬虫及其框架介绍

2023年10月6日上午1:35 • Python • 阅读 50

一、框架概述

在介绍框架之前，简单介绍一下网络爬虫（Web Crawler）。

当我们上网时，浏览的网页上有很多形形色色的信息，我们可以手动收集（复制粘贴or下载）我们需要的信息。但是，当信息量比较多就显得很麻烦了，有没有一种方式可以自动且快捷地把一堆相关网页上的海量信息下载下来呢？有，那就是网络爬虫。

网络爬虫是一种从 Web 上自动下载网页的程序——网络爬虫把一个或多个”种子网页”作为输入，然后经过下载、分析和扫描等处理过程来获取新链接。对于指向未下载网页的链接，将它们加到一个中央 URL 队列中。然后，从队列中选择一个新的网页进行下载……如此往复，就像蛛网一样访问并下载到所有延伸的网页，在这个过程中，分析并提取网页中有用的数据，以结构化的方式存储。

事实上，所有我们所知的主要的搜索引擎（百度、Google…）都使用爬虫，有效的网络爬虫是现代搜索引擎取得成功的关键。

Scrapy 是由 Python 语言开发的一个快速、高层次的屏幕抓取和 Web 抓取框架，用于抓取 Web 站点并从页面中提取结构化的数据。相比于传统的爬虫来说，基于 Scrapy 框架的爬虫更加结构化，同时也更加高效，能完成更加复杂的爬取任务。

Scrapy 框架的架构如图所示。

Original: https://blog.csdn.net/smilejiasmile/article/details/120041272
Author: smilejiasmile
Title: Scrapy 爬虫框架初体验一 —— 网络爬虫及其框架介绍

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/792221/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Hugging Face发布diffuser模型AI绘画库初尝鲜！

💡 作者：韩信子@ShowMeAI📘 深度学习实战系列：https://www.showmeai.tech/tutorials/42📘 TensorFlow 实战系列：https:…

Python 2023年10月25日
0049
深度学习入门笔记：感知机

编程导航：nav.wenancoding.com个人blog：wenancoding.comgzh：【问安coding】定义感知机接收多个输入信号，输出一个信号。感知机的信号只…

Python 2023年6月10日
0037
[转]使用 exec 函数时需要注意的一些安全问题

>>> code = """ …: a = "hello" …: print(a) …: &quot…

Python 2023年6月6日
0063
Tkinter制作股票数据抓取小程序，有点秀！

在前面的文章中，我们一起学习了如何通过 Python 抓取东方财富网的实时股票数据，链接如下用 Python 爬取股票实时数据今天我们就在这个基础上，实现一个 Tkin…

Python 2023年5月24日
0085
用Anaconda安装TensorFlow(Windows10)

目录： * – 一.安装Anaconda – 二.pycharm导入Anaconda – 三.用Anaconda安装TensorFlow &#8…

Python 2023年9月28日
0056
KITTI数据集介绍

本文为个人学习笔记，参考文献已经标注出。 kitti数据集主要分为以下几个文件夹。下面分别介绍。一、标定校准文件 calib训练集存储为data_object_calib/tra…

Python 2023年9月16日
00100
第二节使用Django进行数据库操作的步骤

数据库表生成后，可以通过编写程序的方式操作数据库表，基本的操作方式不外乎增、删、改、查。本节是以一个简单的样例，说明如何通过编程操作数据库。 1. 准备工作 1-1 创建一个新…

Python 2023年8月5日
0065
go操作Kafka

1. Kafka介绍 – 1.1.1. Kafka是什么 1.1.2. Kafka的特点 1.1.3. 常用的场景 1.1.4. Kafka中包含以下基础概念 1.1….

Python 2023年10月13日
0039
Python标准库笔记(6) — struct模块

该模块作用是完成Python数值和C语言结构体的Python字符串形式间的转换。这可以用于处理存储在文件中或从网络连接中存储的二进制数据，以及其他数据源。用途: 在Python基…

Python 2023年6月3日
0088
pytorch图像读取（cv2&PIL，numpy&tensor相关小知识）

torch.tensor与numpy array转换相关问题 CV2.imread(file)返回的是numpy array，且形状为[h,w,c]，若要被pytorch搭建的网络…

Python 2023年8月25日
0043
Scrapy&&案例

网址：http://www.4399.com/flash/ 新建Scrapy后，会有自定义取好的名字 ; 用我们最熟悉的方式: xpath提取游戏名称, 游戏类别, 发布时间，链接…

Python 2023年10月2日
0032
python将str写入csv_python – Pandas将数据帧写入CSV fi

如果您遇到编码为’utf-8’的问题，并且想要逐个单元格地进行，您可以尝试以下其他方法。 Python 2 (其中”df”是您的Da…

Python 2023年8月7日
0043
深入理解PSNR（峰值信噪比）(附matlab代码)

深入理解PSNR 作者：老李日期：2022-1-19 本文引入MSE、SNR、变异系数（Coefficient of Variation），并希望从统计学的角度上解释这个变量这个…

Python 2023年10月27日
0017
ORM增删改查并发性能测试2

404. 抱歉，您访问的资源不存在。可能是网址有误，或者对应的内容被删除，或者处于私有状态。代码改变世界，联系邮箱 contact@cnblogs.com 弹尽粮绝，会员救园：…

Python 2023年10月22日
0020
Quartz框架汇总

目录一.Quartz理论基础（一）Timer 二.线程池（一）ScheduledThreadPoolExcutor （二）SingleThreadScheduledExecu…

Python 2023年11月7日
0035
海思3516系列芯片SPI速率慢问题深入分析与优化（基于PL022 SPI 控制器）

海思3516系列芯片SPI速率慢问题深入分析与优化（基于PL022 SPI 控制器）我在某个海思主控的项目中需要使用SPI接口来驱动一块液晶屏，液晶屏主控为 st7789，分辨率…

Python 2023年10月17日
0048

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Scrapy 爬虫框架初体验一 —— 网络爬虫及其框架介绍

一、框架概述

大家都在看