python网络爬虫（第十章：初识爬虫框架Scrapy）

2023年10月3日下午1:01 • Python • 阅读 54

1.什么是框架

一个集成了很多功能且具有很强通用性的一个项目模拟。

2.如何学习框架

专门学习框架封装的各种功能的详细用法。

3.什么是Scrapy

爬虫中封装好的一个明星框架。
功能：高性能的持久化存储，异步的数据下载，高性能的数据分析，分布式

3.1环境安装

1.pip install scrapy

3.2scrapy基本使用

scrapy创建工程是根据终端指令进行创建
创建工程步骤：

1.进入终端：（Terminal[Alt+F12]）
2.进入指定目录【cd 第十章】cd 目录
3.创建工程【scrapy startproject xxxPro】
如：scrapy startproject firstBlood
查看：1个和工程同名的文件夹和1个scrapy.cfg配置文件
    spyder文件夹：爬虫文件夹，又称爬虫目录：在该文件夹中需要创建一个爬虫源文件

    __init__.py：
    items.py：
    middlewares.py：
    pipelines.py：
    settings.py：放置项目对应配置文件（应该经常使用）

4.进入工程目录中【cd xxxPro/】
    如：cd firstBlood/
5.在spiders子目录中创建一个爬虫文件【scrapy genspider spiderName www.xxx.com】
    如:scrapy genspider first www.xxx.com   #srcapy genspider 爬虫文件名称 起始的URL

6.执行工程【scrapy crawl spiderName】
    如：scrapy crawl first   #first为自己在spider文件夹中创建的爬虫文件名称

终端调试技巧：
1.清除屏幕：cls【Ctrl+L】
2.不看日志：scrapy crawl first –nolog #scray crawl 爬取文件名 –nolog
3.仅输出错误日志：在settings.py中添加【LOG_LEVEL = ‘ERROR’】
4.退回上一级目录【cd …】

3.2 案例1：简单实用Scrapy

import scrapy

class First1Spider(scrapy.Spider):
    name = 'first1'

    start_urls = ['https://www.qiushibaike.com/text/']

    #解析网页
    def parse(self, response):

        div_list = response.xpath('//*[@id="content"]/div/div[2]//div')
        for div in div_list:
            author = div.xpath('./div[1]/a/img/@alt')[0].extract()
            content = div.xpath('./a/div[@class="content"]/span//text()')[0].extract()
            # content = ''.join(content)

            print(author,content)

            break

步骤1. 进入目录：cd 第十章
步骤2. 创建工程 scrapy startproject qiushi
步骤3. 进入工程中的爬虫文件夹中 cd spider/
步骤4. 创建爬虫文件 scrapy genspider first1 www.xxx.com
步骤5. 修改setting.py配置中的USER-AGENT、ROBOTTXT、LOG_LEVEL
步骤6. 爬虫文件编辑

4.Scrapy持久化存储

4.1基于终端指令存储

要求：只可以将parse方法的返回值存储到本地的文本文件中
注意：持久化存储对应的文本文件的类型只能是：(‘json’, ‘jsonlines’, ‘jl’, ‘csv’, ‘xml’, ‘marshal’, ‘pickle’)
指令：scrapy crawl 爬虫文件 -o 保存文件名称如：scrapy crawl first1 -o ./qiushi.csv
缺点 :局限性比较强（数据只可以存储到指定后缀的文本文件中）

案例:

import scrapy

class First1Spider(scrapy.Spider):
    name = 'first1'

    start_urls = ['https://www.qiushibaike.com/text/']

    #解析网页
    def parse(self, response):
        #网页解析 该xpath同etree中的xpath不同，但解析方式是相同的
        div_list = response.xpath('//*[@id="content"]/div/div[2]/div')
        all_data = []
        for div in div_list:
            #获取作者名称
            author = div.xpath('./div[1]/a[1]/img/@alt')[0].extract()
            #获取文本内容
            content = div.xpath('./a[1]/div[1]/span//text()')[0].extract()

            dic = {
                'author':author,
                'content':content
            }
            all_data.append(dic)
            print(author,content)

        return all_data

备注：1.终端持久化存储，必须在parse()方法中有return返回值，才能保存在终端。
2.终端Tessertial中输入scrapy crawl first1 -o ./qiushi.csv

4.2基于管道进行持久化存储

步骤如下：

1.数据解析【first2.py】
2.在item类中定义相关的属性【items.py中添加：author = scrapy.Field()和 content = scrapy.Field()】
3.将解析的数据封装存储到item类型的对象
4.将item类型的对象提交给管道进行持久化存储
5.在pipelines管道类的process_item要将其接受到的item对象中存储的数据进行持久化存储操作
6.在配置文件中开启管道
邮电：通用性强

案例：

1.first2.py

import scrapy
from qiushi.items import QiushiItem

class First2Spider(scrapy.Spider):
    name = 'first2'

    start_urls = ['https://www.qiushibaike.com/text/']

    #1.解析网页
    def parse(self, response):
        # 网页解析 该xpath同etree中的xpath不同，但解析方式是相同的
        div_list = response.xpath('//*[@id="content"]/div/div[2]/div')
        all_data = []
        for div in div_list:
            # 获取作者名称
            author = div.xpath('./div[1]/a[1]/img/@alt')[0].extract()
            # 获取文本内容
            content = div.xpath('./a[1]/div[1]/span//text()')[0].extract()

    #3.实例化item对象
            item = QiushiItem()
            #将解析的数据封装到该类型对象当中，其中该类型指item类型
            item['author'] = author
            item['content'] = content

    #4.将item类型的对象提交给管道
            yield item

2.items.py

Define here the models for your scraped items
#
See documentation in:
https:

import scrapy

class QiushiItem(scrapy.Item):
    # define the fields for your item here like:
    author = scrapy.Field()
    content = scrapy.Field()

3.pipelines.py

Define your item pipelines here
#
Don't forget to add your pipeline to the ITEM_PIPELINES setting
See: https:

useful for handling different item types with a single interface
from itemadapter import ItemAdapter

class QiushiPipeline(object):

    fp = None
    #重写父类的get_spider方法：该方法只在开始爬虫的时候被调用一次，不会被反复调用
    def open_spider(self,spider):
        print('开始爬虫！！！')
        self.fp = open('./qiushi.txt','w',encoding='utf-8')

    #专门迎来处理item类型对象，该方法可以接收爬虫文件提交过来的item对象
    #该方法每接收到一个item，就会调用一次
    def process_item(self, item, spider):
        author = item['author']
        content = item['content']

        self.fp.write(author+':'+content+'\n')

        return item

    #关闭get_spider方法
    def close_spider(self,spider):
        print('结束爬虫！！！')
        self.fp.close()

4.settings.py

ITEM_PIPELINES = {
   'qiushi.pipelines.QiushiPipeline': 300,  #300表示优先级
}

步骤1.首先在first2.py中完成数据的解析

    def parse(self, response):
        # 网页解析 该xpath同etree中的xpath不同，但解析方式是相同的
        div_list = response.xpath('//*[@id="content"]/div/div[2]/div')
        all_data = []
        for div in div_list:
            # 获取作者名称
            author = div.xpath('./div[1]/a[1]/img/@alt')[0].extract()
            # 获取文本内容
            content = div.xpath('./a[1]/div[1]/span//text()')[0].extract()

步骤2.在items.py中定义相关的属性

    author = scrapy.Field()
    content = scrapy.Field()

步骤3.在first2.py中实例化item对象，引入from qiushi.items import QiushiItem

    #3.实例化item对象
            item = QiushiItem()
            #将解析的数据封装到该类型对象当中，其中该类型指item类型
            item['author'] = author
            item['content'] = content

步骤4.将item类型的对象提交给管道

1.首先在first.py中输入：

    #4.将item类型的对象提交给管道
            yield item

步骤5…使用pipelines.py类的process_item将接受到的item对象中存储的数据进行持久化存储操作

#.在pipelines.py中完成管道处理：

 fp = None
    #重写父类的get_spider方法：该方法只在开始爬虫的时候被调用一次，不会被反复调用
    def open_spider(self,spider):
        print('开始爬虫！！！')
        self.fp = open('./qiushi.txt','w',encoding='utf-8')

    #专门迎来处理item类型对象，该方法可以接收爬虫文件提交过来的item对象
    #该方法每接收到一个item，就会调用一次
    def process_item(self, item, spider):
        author = item['author']
        content = item['content']

        self.fp.write(author+':'+content+'\n')
        return item

    #关闭open_spider方法
    def close_spider(self,spider):
        print('结束爬虫！！！')
        self.fp.close()

步骤6.在settings.py中开启管道

ITEM_PIPELINES = {
   'qiushi.pipelines.QiushiPipeline': 300,
}

问题：在步骤3中导入Item包后变红
解决：

Original: https://blog.csdn.net/qq_38633279/article/details/119656332
Author: qq_38633279
Title: python网络爬虫（第十章：初识爬虫框架Scrapy）

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/790257/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pip和conda代理设置

在公司内网中要下载第三方库时，必须设置代理。 pip 尝试了很多方法，只有这一种是最有效的。没有用户名和密码 pip install –proxy http://pr…

Python 2023年9月8日
0039
【软件测试学习笔记】pytest-allure生成测试报告

pytest-allure生成测试报告安装模块：pip install allure-pytest 第一步&am…

Python 2023年9月14日
0047
Python 递归函数返回值为 None 的解决办法

在使用 Python 开发的过程中，避免不了会用到递归函数。但递归函数的返回值有时会出现意想不到的情况。下面来举一个例子： >>> def fun(i): ….

Python 2023年5月24日
0060
完美解决 matplotlib 对数上标负号乱码的问题

大结局在使用matplotlib进行绘图时，如不对参数进行修改，会出现中文字体显示乱码的问题。该问题可以通过在绘图之前进行字体设置解决，见我之前博客中的介绍https://blo…

Python 2023年9月5日
0065
pygame只能编写游戏_pygame入门第一个游戏作品

原作者：xishui 学程序一开始我们总会写一个Hello world程序，但那只是在屏幕上写了两个字，现在我们来点更帅的！写好以后会是这样的效果：源码： !/usr/bin/e…

Python 2023年9月23日
0038
python 合并dataframe有多条key对应只保留_如果在python中合并两个panda数据帧，如何保留多级列？…

在我的项目中，我用一个空的pandas数据帧初始化一个对象。在这个对象的一个方法中，我创建了另一个带有多级列的数据帧。另外，我将第二个dataframe与空dataframe合并，…

Python 2023年8月21日
0046
Python编程圣诞树教程（附代码）程序员的浪漫

作者简介：一名在校计算机学生、每天分享Python的学习经验、和学习笔记。座右铭：低头赶路，敬事如仪 *个人主页：网络豆的主页目录前言一.python 做圣诞树…

Python 2023年9月29日
00124
数据分析以及matplotlib应用

文章目录数据分析的重要性 * 数据分析定义数据分析流程环境配置 – matplotlib 实现程序应用matplotlib 做到更好程序实现改变坐标轴刻度值…

Python 2023年9月6日
0049
【行人轨迹预测数据集——ETH、UCY】

下载地址 ETH数据集之前的链接已经失效了，可以通过ETHz官网搜索关键词”walking pedestrians dataset”，我找到在Compute…

Python 2023年9月30日
00100
CGI、WSGI、uWSGI、ASGI概念和Django项目部署架构的关系

学习Python Web 开发的时候，经常遇到一些名词：uwsgi、wsgi，今天整理一下。 CGI（Common Gateway Interface）通用网关接口顾名思义，CG…

Python 2023年8月4日
0076
scrapy框架选择器

scrapy框架选择器 Scrapy有自己的数据提取机制。它们被称为选择器，因为它们”选择”HTML文档的某些部分 XPath 或 CSS 表达。 XPat…

Python 2023年10月1日
0044
java实现根据先序遍历和中序遍历结果复原二叉树（剑指offer）

思路前序遍历序列为根左右顺序，中序遍历序列为左根右。首先根据前序遍历序列确定根节点，然后在中序遍历序列寻找根节点位置，考虑到当前序列在中序遍历序列的开始位置从而在中序遍历序列中…

Python 2023年6月12日
0065
Jupyter Notebook 默认储存地址更改方法

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。 Original: https://blo…

Python 2023年8月8日
0040
Linux常用命令总结（二）

1.Netstat 命令用于显示各种网络相关信息，如网络连接，路由表，接口状态等待。例如统计IP110.120.119.XXX的连接数： netstat | grep 110…

Python 2023年6月9日
0071
国内访问Github超级慢？那是你没有用我这个脚本。直接起飞。

导语之前很多朋友咨询过国内访问Github较慢的问题，然后我一般让他们自己去知乎上找攻略，但今天我才发现网上竟然没有一个一键配置的脚本，一般都需要我们跟着教程一步步地去做才行。这…

Python 2023年8月3日
0051
用ACDSee查看Office文档？No！有中文解决方案吗？暂未发现！

看图软件选择用过不少看图软件，20年前就觉得ACDSee实在太好用了，界面漂亮、速度快、格式多、体积小！后来图像格式越来越丰富，ACDSee版本也越来越新，体积越来越大。看图…

Python 2023年6月3日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31