爬虫日记(13)：scrapy提取超级连接

2023年10月5日上午9:48 • Python • 阅读 32

爬虫能够不断地向各个地方漫游，得益于它有识别道路的能力，这里所谓的道路就是超级连接。虽然从种子的网页出发，它就会根据下载的网页来识别下一个网页，通过这样的方式，就可以遍历整个网站，从而把所有网页分析一遍，从中拿到我们需要信息。比如你想下载一部网上的小说，而这本小说有1000页，如果你让从头点到尾，需要点击1000次。如果采用爬虫来解决，只需要给出首页，就可以解决了。不过，你需要指定爬虫怎么样从首页里拿到下一页的超级连接。本文将要来学习这方面的内容，这是编写爬虫的基本知识。

继续从前面的抓取名言为例，之前只是爬取了 http://quotes.toscrape.com的两个页面，如果让你爬取整个网站，又需要怎么来处理呢。

上一篇已经学习了从网页里抓取数据，这次继续来学习抓取超级连接。首要的任务就是抓取下一页的超级连接，回过头来查看网页的源码，会发现下一页的超级连接是这样的：

Original: https://blog.csdn.net/caimouse/article/details/114712279
Author: caimouse
Title: 爬虫日记(13)：scrapy提取超级连接

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791691/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

学会Python开发的第一步：写一个桌面小程序

前言嗨喽，大家好呀~这里是爱看美女的茜茜呐又到了学Python时刻~ 当使用桌面应用程序的时候，有没有那么一瞬间，想学习一下桌面应用程序开发？建议此次课程大家稍作了解不要浪…

Python 2023年7月31日
0066
python-数据分析-pandas基础知识

1.Series和DataFrame基础操作 Pandas需要通过改变索引进行增加和删除内部数据 Dataframe.insert(loc, column, value, allo…

Python 2023年8月21日
0042
【OpenCV】人脸识别

目录一：前言二：人脸识别案例实现步骤及完整代码步骤1 灰度化处理步骤2 将灰度图再次进行行列压缩步骤3 直方图均值化步骤4 使用模型对每一个像素点遍历图像甄别 …

Python 2023年9月28日
0042
机器学习实战-决策树

1.决策树的构造 1.1优缺点优点: 计算复杂度不高：以ID3为例，每次运算都是基于某一列特征，特征计算完后，下次计算不考虑该最有特征，并且通过适当剪枝可以简化复杂度输出结果易…

Python 2023年10月31日
0021
matplotlib的Text、FontProperties对象、字体（font）属性|中文字体的设置|图像标题、label字体的设置

matplotlib.text.Text对象见文档描述matplotlib.text设置Text字体性质的方法有两个： Text.set(xxx=value) Text.set_…

Python 2023年8月30日
0077
【Pytorch】torch.nn.init.xavier_uniform_()

目录简介 torch.nn.init.xavier_uniform_() * 语法作用举例参考结语 ; 简介 Hello！非常感谢您阅读海轰的文章，倘若文中有错误的地方，…

Python 2023年10月24日
0022
Python爬虫何如抓包？这三个案例手把手教会你，非常详细…

很多小伙伴总是问我，数据来源怎么找啊，怎么抓包，其实很简单，多操作几遍就记住了。今天咱们通过三个案例来展示一下某牙直播抓包首先咱们进入目标网页，随便找一个视频，通过开发者工具…

Python 2023年11月1日
0087
cmd查看mysql版本

cmd查看mysql版本问题描述：作为一个mysql数据库小白，我想cmd打开数据库看一下朋友给我安装的数据库版本。结果打开cmd，输入mysql -V，发现这个命令没反应，…

Python 2023年6月12日
0097
pytest–临时目录和文件

1.相关的fixture 1.1 tmp_path tmp_path是一个用例级别的fixture，其作用是返回一个唯一的临时目录对象(pathlib.Path) CONTENT …

Python 2023年9月12日
0039
python之推导式生成器生成器函数递归函数

推导式通过一行循环判断遍历出一些列数据的方法叫做推导式语法:val for val in iterable 1.推导式基本语法 lst = [] for i in range(…

Python 2023年11月9日
0039
shell语法习题练习进阶版

第 4 章 shell 语法深度习题练习 4.1 使用 if,case, 函数的方法将服务改成 system(centos6) 4.1.1 if 方法 4.1.1.1 system…

Python 2023年6月10日
0070
Web Spider NEX XX国际货币经纪 – PDF下载 & 提取关键词（二）

Web Spider NEX XX国际货币经纪 – PDF下载 & 解析 首先声&#x…

Python 2023年9月25日
0061
对抗攻击方法一览

神经网络在过去的几年和几十年已经获得了长足的进步，神经网络的应用已经遍布我们生活的各个角落。但是与此同时，也有人发现神经网络并不像我们预期的那么具有鲁棒性，仅仅在图片中添加一个微笑…

Python 2023年10月28日
0020
Java安全之Mojarra JSF反序列化

Java安全之Mojarra JSF反序列化 About JSF JavaServer Faces，新一代的Java Web应用技术标准，吸收了很多Java Servlet以及其他…

Python 2023年10月15日
0026
【完虐算法】「字符串-最长公共子序列」全面总结

你好！我是Johngo！ LeetCode专题「字符串」现在准备到了 5 期内容来啦。 [TencentCloudSDKException] code:FailedOperatio…

Python 2023年6月3日
0079
PySpark数据分析基础：PySpark Pandas创建、转换、查询、转置、排序操作详解

目录前言一、Pandas数据结构 1.Series 2.DataFrame 3.Time-Series 4.Panel 5.Panel4D 6.PanelND 二、Pyspar…

Python 2023年8月17日
0063

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

爬虫日记(13)：scrapy提取超级连接

大家都在看