Scrapy爬虫框架的应用丨Python爬虫实战系列(9)

2023年10月4日下午1:57 • Python • 阅读 45

📃个人主页：互联网阿星🧐
💬格言：选择有时候会大于努力，但你不努力就没得选
🔥作者简介：大家好我是互联网阿星，和我一起合理使用Python，努力做时间的主人
🏆如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

行业资料：PPT模板、简历模板、行业经典书籍PDF
面试题库：历年经典、热乎的大厂面试真题，持续更新中…

学习资料：含Python基础、爬虫、数据分析、算法等学习视频和文档
Tips：以上资料·阿星已备好>>戳我，空投直达🪂

阿星文章·目录

前言
Scrapy爬虫框架的应用
*
案例说明
文件配置
–
页面数据提取
–
小结

; 前言

本节，阿星将使用Scrapy获取zcool数据作为示例

Scrapy爬虫框架的应用

案例说明

通过Python爬虫基础入门，我们已经初步了解了scrapy的工作流程以及原理。

imgLink(封面图片链接)；
title(标题）;
types（类型）;
vistor（人气）;
comment（评论数）;

然后只是一个页面的item，我们还要通过翻页实现批量数据采集。

; 文件配置

目录结构

在上一篇中我们说明了新建 scrapy项目（zcool）和 spider项目（zc），这里不再赘述，然后得到我们的目录结构如下图所示：

; start.py文件

然后为了方便运行，在zcool目录下新建start文件。并进行初始化设置。

from scrapy import cmdline
cmdline.execute('scrapy crawl zc'.split())

settings.py文件

在这个文件里我们需要做几样设置👇

避免在程序运行的时候打印log日志信息

  LOG_LEVEL = 'WARNING'
 ROBOTSTXT_OBEY = False

添加请求头：

item.py文件

import scrapy

class ZcoolItem(scrapy.Item):

    imgLink = scrapy.Field()
    title = scrapy.Field()
    types = scrapy.Field()
    vistor = scrapy.Field()
    comment = scrapy.Field()
    likes = scrapy.Field()

页面数据提取

首先我们在站酷页面使用xpath-helper测试一下：

然后zc.py文件里面初步测试一下：

def parse(self, response):
    divList = response.xpath('//div[@class="work-list-box"]/div')
    print(len(divList))

没有问题，然后我们对各种信息分别解析提取，

def parse(self, response):
    divList = response.xpath('//div[@class="work-list-box"]/div')
    for div in divList:
        imgLink = div.xpath("./div[1]/a/img/@src").extract()[0]
  ...  2.title(标题）;3 types（类型）;4vistor（人气）;5comment（评论数）  ....

        likes = div.xpath("./div[2]/p[3]/span[3]/@title").extract_first()

        item = ZcoolItem(imgLink=imgLink,title=title,types=types,vistor=vistor,comment=comment,likes=likes)

        yield item

解释： xpath提取数据方法：

S.N.方法 & 描述extract()返回的是符合要求的所有的数据，存在一个列表里。extract_first()返回的hrefs 列表里的第一个数据。get()和extract_first()方法返回的是一样的，都是列表里的第一个数据。getall()和extract()方法一样，返回的都是符合要求的所有的数据，存在一个列表里。

注意：

”
get() 、getall() 方法是新的方法，extract() 、extract_first()方法是旧的方法。extract() 、extract_first()方法取不到就返回None。get() 、getall() 方法取不到就raise一个错误。
“

item实例创建（yield上面一行代码）

这里我们之前在目录文件配置的item文件中已经进行了设置，对于数据存储，我们在爬虫文件中开头要导入这个类：

from zcool.items import ZcoolItem

然后使用yield返回数据。

为什么使用yield而不是return

不能使用return这个无容置疑，因为要翻页，使用return直接退出函数；而对于yield:在调用for的时候，函数内部不会立即执行，只是返回了一个生成器对象。在迭代的时候函数会开始执行，当在yield的时候，会返回当前值(i)。之后的这个函数会在循环中进行，直到没有下一个值。

翻页实现批量数据采集

通过上面的代码已经可以初步实现数据采集，只不过只有第一页的，如下图所示：

但是我们的目标是100个页面的批量数据采集，所以代码还需要修改。针对翻页这里介绍两种方式：

方式一：我们首先在页面中定位到下一页的按钮，如下图所示：

然后编写如下代码，在for循环完毕后。

next_href = response.xpath("//a[@class='laypage_next']/@href").extract_first()
if next_href:
    next_url = response.urljoin(next_href)
    print('*' * 60)
    print(next_url)
    print('*' * 60)
    request = scrapy.Request(next_url)
    yield request

scrapy.Request(): 把下一页的url传递给Request函数,进行翻页循环数据采集。

注意方式一只有下一页按钮它的 href对应属性值和下一页的url一致才行。

方式二：定义一个全局变量count = 0,每获取一页数据，令其加一，构建新的url,再使用scrapy.Request() 发起请求。

如下图所示：

这两种方式在实际案例中择机采用。

数据存储

数据存储是在pipline.py中进行的,代码如下：

from itemadapter import ItemAdapter
import csv

class ZcoolPipeline:
    def __init__(self):
        self.f = open('Zcool.csv','w',encoding='utf-8',newline='')
        self.file_name = ['imgLink', 'title','types','vistor','comment','likes']
        self.writer = csv.DictWriter(self.f, fieldnames=self.file_name)
        self.writer.writeheader()

    def process_item(self, item, spider):
        self.writer.writerow(dict(item))
        print(item)
        return item

    def close_spider(self,spider):
        self.f.close()

解释:

line1: 打开文件，指定方式为写，利用第3个参数把csv写数据时产生的空行消除
line2: 设置文件第一行的字段名，注意要跟spider传过来的字典key名称相同
line3: 指定文件的写入方式为csv字典写入，参数1为指定具体文件，参数2为指定字段名
line4: 写入第一行字段名，因为只要写入一次，所以文件放在__init__里面
line5: 写入spider传过来的具体数值,注意在spider文件中yield的item,是一个由类创建的实例对象，我们写入数据时，写入的是字典，所以这里还要转化一下。
line6: 写入完返回

程序运行

因为之前创建了start.py文件,并且对它就行了初始化设置，现在运行爬虫程序不需要在控制台中输入命令：

scrapy crawl zc(爬虫项目名)

直运行start.py文件：得到如下结果：

对应于页面：

打开csv文件如下图所示：（由于csv文件在word中乱码了，此处我是用Notepad++打开）

没有问题，数据采集完毕。

小结

Scrapy爬虫框架的应用丨Python爬虫实战系列(9) 就到这了，入门案例，需要细心，主要是基础知识的巩固，以便于为进阶学习做好准备。在学爬虫的老铁记得持续关注，阿星祝你早日修炼成为爬虫大佬😎如果觉得博主的文章还不错的话，请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞

学习资料：含Python基础、爬虫、数据分析、算法等学习视频和文档
行业资料：添加即可领取PPT模板、简历模板、行业经典书籍PDF
面试题库：历年经典，热乎的大厂面试真题，持续更新中…

资料已备好，戳我文末名片领…√
🐌资料已备好👇戳我名片领🐱‍💻

Original: https://blog.csdn.net/m0_68103523/article/details/124934222
Author: 互联网阿星
Title: Scrapy爬虫框架的应用丨Python爬虫实战系列(9)

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791064/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

通过Python收集汇聚MySQL 表信息

一.需求统计收集各个实例上table的信息，主要是表的记录数及大小。收集的范围是cmdb中所有的数据库实例。二.公共基础文件说明 1.配置文件配置文为db_servers_…

Python 2023年6月9日
0064
Pyinstaller打包过程生成的.spec文件

pyinstaller的安装方式可通过： pip installer pyinstaller 通常打包程序有两种情况：情况一，打包一个python脚本文件；情况二，打包一个…

Python 2023年9月18日
0035
kali安装empire过程中遇到的各种报错解决方案

下载empire 首先需要到https://github.com/EmpireProject/Empire将empire下载下来并解压安装-初始化 cd Empire/setup…

Python 2023年8月9日
0075
Docker Compose Test

Make sure you have already installed both Docker Engine and Docker Compose. You don’…

Python 2023年8月14日
0042
.NET使用StackTrace获取方法调用信息

前言在日常工作中，偶尔需要调查一些诡异的问题，而业务代码经过长时间的演化，很可能已经变得错综复杂，流程、分支众多，如果能在关键方法的日志里添加上调用者的信息，将对定位问题非常有帮…

Python 2023年10月23日
0062
【20211123】【Python】dataframe 修改行名、列名的方法

一、通过 pandas.DataFrame的属性值 index、columns 修改 1. 语法 df.index = []df.columns = [] 2. 举个栗子 imp…

Python 2023年8月6日
0067
20行Python scrapy 代码，去采集【蓝桥】训练营

scrapy 中的 settings.py 文件在项目中是非常重要的，因其包含非常多的配置。这篇博客基于官方手册为你说明 settings.py 文件相关配置，并补充一些扩展说明。…

Python 2023年10月2日
0048
PyCharm在Win7系统中运行可能出现的问题及解决方法

PyCharm 是由 JetBrains 设计开发的一款 Python IDE，支持 macOS、 Windows、 Linux 系统，功能强大，使用方便，在Python的程序设计…

Python 2023年5月24日
0069
数据分析—基于pandas的数据清洗

一、处理丢失的数据（删除所在行或列、覆盖）原始数据中可能存在两种缺失值（空值）：可能会产生重复值和异常值。有两种缺失数据： None 和 np.nan(NaN) 两种丢失数据…

Python 2023年8月20日
0042
如何剪裁csv文件，并从中求出每一列的最大值和平均值，并将最大值和平均值添加到表的末尾

如何剪裁csv文件，并从中求出每一列的最大值和平均值，并将最大值和平均值添加到表的末尾剪裁CSV文件求每一列的最大值和平均值将最大值和平均值添加到末尾很少用python，第…

Python 2023年8月20日
0043
【NovelAI】在QQ群中部署AI画图机器人

目录一、NovelAI 二、UIautomation和pywin32 三、代码 1、AI画图相关 2、QQ群消息抓取相关四、代码效果五、后记一、NovelAI NovelA…

Python 2023年8月2日
00143
【博弈论基础与几大经典模型】古诺模型、斯塔克尔伯格模型Stackelberg Game、价格领导模型、Bertrand模型、Sweezy模型

最近阅读了一篇paper中用到了Stackelberg Game建模，于是找了一些资料先学习以下该模型的理论知识，发现很多学科都是相关的，真是神奇的存在。什么是博弈论博弈论(G…

Python 2023年9月28日
0060
设计模式—建造者模式

类型：创建型目的：创建对象时，提升属性设置的灵活性。灵活性类中定义了大量属性时，通常为了创建对象时属性初始设置的便利随之定义大量的构造方法。为了既不定义过多的构造方法，又保…

Python 2023年10月21日
0030
【Tensorflow】结果可复现设置-随机种子设置(Random Seed)

引言设置引言在进行深度学习实验的时候，可能经常会发现，虽然输入的数据都是一样的，但是输出的结果总是会有不同的波动，这主要是由于在神经网络中，很多网络层参数的初始化会涉及到随机…

Python 2023年10月28日
0030
使用.Net对图片进行裁剪、缩放、与加水印

图片的裁剪、缩放、与加水印，是任何系统经常要用到的功能，它们现已集成到IUtility工具中，使用十分简便。（具体代码将在文末给出，支持.NET/.NET Framework/.N…

Python 2023年10月23日
0031
pytest和allure生成测试报告

pytest简介pytest命名规则使用pytest之前需要安装一下pytest : pip install pytest 类名必须以Test开头,必须是大写开头，也可以_test…

Python 2023年9月13日
0083

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31