Python爬虫之Scrapy框架（案例练习）

2023年8月1日上午10:29 • Python • 阅读 47

@作者 : SYFStrive

@博客首页 : HomePage;

🥧 上一篇续文传送门

📌：个人社区（欢迎大佬们加入） 👉：社区链接🔗

📌：如果觉得文章对你有帮助可以点点关注 👉：专栏连接🔗

🥧：感谢支持,学习累了可以先看小段由小胖给大家带来的街舞😀

🔗：阅读文章

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据 (例如 Amazon Associates Web Services ) 或者通用的网络爬虫。
Scrapy 是一个基于 Twisted 实现的异步处理爬虫框架，该框架使用纯 Python 语言编写。Scrapy 框架应用广泛，常用于数据采集、网络监测，以及自动化测试等。
提示：Twisted 是一个基于事件驱动的网络引擎框架，同样采用 Python 实现。

📦Scrapy使用前准备

文档如👇
官网文档：链接
C语言中文文档：链接
安装
安装语法：python -m pip install Scrapy
报错：使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple –trusted-host pypi.tuna.tsinghua.edu.cn 加名称

Yield的使用

带有 yield 的函数不再是一个普通函数，而是一个生成器generator，可用于迭代
yield 是一个类似 return 的关键字，迭代一次遇到yield时就返回yield后面(右边)的值。重点是：下一次迭代时，从上一次迭代遇到的yield后面的代码(下一行)开始执行
简要理解：yield就是 return 返回一个值，并且记住这个返回的位置，下次迭代就从这个位置后(下一行)开始

Python爬虫之Scrapy框架之🔔🔔爬取数据

案例使用的内容

涉及单管道、多管道

单管道

📰代码演示：

; 多管道（单独使用一个管道下载图片……）

📰代码演示：

如下图（下载成功🆗）：

实现多页面下载（爬取100页内容）

📰代码演示：

如下图（下载成功🆗）：

; 案例总结

两个生命函数

    # 在爬虫文件开始的之前就执行的一个方法
    # def open_spider():
    # 在爬虫文件执行完之后  执行的方法
    # def close_spider():

简单步骤：获取数据后 👉 使用items 定义数据结构的 👉 导入items（传递数据） 👉 使用Yield返回 👉 通过pipelines管道下载数据（使用前要开启管道（item就是yield后面的book对象））
添加管道：定义管道类 👉 在settings中开启管道
注意：
1、如果是多页下载的话那么必须要调整的是allowed_domains的范围一般情况下只写域名
2、write方法必须要写一个字符串而不能是其他的对象
3、通过该案例检测的一点就是下载的图片目录文件是spiders下的理解如：’./bookImg/’ + item.get(‘name’) + ‘.jpg’

Post请求

效果如下:

; Python爬虫之Scrapy框架之🎦爬取数据

📰代码演示：

class DianyingtiantangPipeline:

    def open_spider(self, spider):
        self.fs = open('movie.json', 'w', encoding='utf-8')

    def process_item(self, item, spider):
        # 简单理解：这里的item相当于yield movie返回值
        self.fs.write(str(item))

        return item

    def close_spider(self, spider):
        self.fs.close()

如下图（下载成功🆗）：

最后

Scrapy框架还未结束（待更），觉得不错的请给我专栏点点订阅，你的支持是我们更新的动力，感谢大家的支持，希望这篇文章能帮到大家

点击跳转到我的Python专栏

下篇文章再见ヾ(￣▽￣)ByeBye

Original: https://blog.csdn.net/m0_61490399/article/details/126246408
Author: SYFStrive
Title: Python爬虫之Scrapy框架（案例练习）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/727952/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python学习numpy（一维数组）保姆级别教学

Numpy软件库提供了对于数组进行高速处理的ndarray类。生成ndarray类的方法之一是使用Numpy的np.array()函数，使用np.array(列表)语句，通过传入的…

Python 2023年8月24日
0054
瞎猫碰死耗子解决You are using pip version 9.0.1,however version 22.1.2 is available.You should consider upgr

首先，我在安装包的时候遇到”You are using pip version 9.0.1, however version 22.1.2 is available. …

Python 2023年8月2日
0062
Python Pandas读取文件和DataFrame、Series的基本使用

1.读取文件和数据属性的基本查看方法数据类型读取方法csv,tsv,txtpd.read_csv(filepath)excelpd.read_excel(filepath)mys…

Python 2023年8月19日
0061
esp8266测试1.44英寸TFT屏(驱动7735)的demo

参考这教程: 使用esp8266点亮福利屏型号st7735的1.44的TFT屏管脚连接：我的用的TFT1.44寸ST7735，与NodeMCU针脚接线成功连接VCC——3VGND—…

Python 2023年9月16日
00177
Python疫情数据爬取与可视化

使用Python爬取腾讯新闻疫情数据，并使用pyecharts可视化，绘制增长人数地图、柱状图、折线图。文章目录 * – 1.分析网页 – 2.导入模块 …

Python 2023年8月7日
0070
python基础语法＞＞基本数据类型

一个喜欢算法的大三在校学生,每周都会将学到的知识贡献给大家。☁️💡🎈开始之前，不妨休息一下，先看个小动画🍵，才能激情地去学习！用python的一个小turtle画了一个简易版的图书…

Python 2023年7月31日
0060
【Python数据分析学习实例】对学生成绩单和信息进行整合以及数据分析

问题描述自建EXCEL文件，分为2个工作区，分别存放学生信息表（不少于30人）和班级职务表（不少于4种职务）。如信息表：学号姓名性别数学英语Python通信技术1001张…

Python 2023年8月7日
0085
Python3《零基础小白从入门到实战》之“pytest测试框架之基础操作 ”

1、引言我有一个朋友是做Python自动化测试的。前几天他告诉我去参加一个大厂面试被刷了。我问他是有没有总结被刷下来的原因。他说面试官问了一些 pytest 单元测试框架相关的…

Python 2023年9月12日
0058
【论文精读】TransE 及其实现

TransE 及其实现 1. What is TransE? TransE (Translating Embedding), an energy-based model for l…

Python 2023年9月30日
0041
【 uniapp – 黑马优购 | 登录与支付（2）】如何实现三秒后跳转和微信支付

个人名片： 🐼 作者简介：一名大二在校生，讨厌编程🎋🐻‍❄️ 个人主页🥇：小新爱学习. ;🐼 个人WeChat：见文末🕊️ 系列专栏：🖼️ 零基础学Java——小白入门必备重识…

Python 2023年11月5日
0067
Python基础：第013课——动画及人机交互初步

观看视频内容介绍本次课将通过示例来复习： pygame游戏开发的总体结构 while、 for循环 if条件语句 rect对象的移动学习键盘事件的处理事件说明学习 whi…

Python 2023年9月23日
0038
matplotlib之饼图

文章目录饼图： pie函数示例说明：扩展应用 * 饼图常用属性甜甜圈图表总结 * 饼图的缺点：饼图和柱状图区别 ; 饼图：饼图（pie plot），或称饼状图，在日常…

Python 2023年8月30日
0059
【Hadoop】5、集群运行

步骤一、NameNode 格式化步骤二、启动 NameNode 步骤三、启动 SecondaryNameNode 步骤四、slave 启动 DataNode 步骤五、查看 HDF…

Python 2023年6月3日
0082
Pytorch模型量化

在深度学习中，量化指的是使用更少的bit来存储原本以浮点数存储的tensor，以及使用更少的bit来完成原本以浮点数完成的计算。这么做的好处主要有如下几点：更少的模型体积，接近4…

Python 2023年8月2日
00103
【用ddt思想重构项目】Selenium使用csv模块读取csv文件，使用pytest参数化实现ddt

前言一直想学习自动化测试，但是都没行动，业余时间学习零零碎碎并记录20210421。 8、用ddt思想重构项目 Selenium读取CSV文件 Selenium读取XML文件 S…

Python 2023年9月14日
0065
引擎之旅 Chapter.4 日志系统

关于近段时间为何没有更新的解释：Find a new job. 一般来说，一个优质的商业级别的游戏本质上就是一个复杂庞大的软件系统。在庞大系统的开发过程中难免会出现错误。为了排查错…

Python 2023年10月20日
0023

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python爬虫之Scrapy框架（案例练习）

目录

📦Scrapy使用前准备

Yield的使用

Python爬虫之Scrapy框架之🔔🔔爬取数据

案例使用的内容

单管道

; 多管道（单独使用一个管道下载图片……）

实现多页面下载 （爬取100页内容）

; 案例总结

Post请求

; Python爬虫之Scrapy框架之🎦爬取数据

大家都在看

实现多页面下载（爬取100页内容）