Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

2023年10月4日下午1:26 • Python • 阅读 51

scrapy数据持久化存储（基于终端指令）：

上节我们爬取到了内容，那么我们怎么做持久化存储呢？

直接在 parse方法中进行 with open() as f ?

如果是这样的话，那我们就没必要使用框架了。

scrapy框架中，我们封装好了持久化存储

import scrapy

class DuanziSpider(scrapy.Spider):
    name = 'duanzi'

    start_urls = ['https://duanzixing.com/段子/']

    def parse(self, response):
        article_list = response.xpath('/html/body/section/div/div/article')
        for article in article_list:
            title = article.xpath('./header/h2/a/@title').extract_first()
            note = article.xpath('./p[2]/text()').extract_first()

这是我们上节课获取数据的爬虫文件源码，我们该怎样利用框架进行持久化存储 title和 note呢？

基于终端指令的持久化存储

这种方法的实现：该种方式只可以将parse方法的返回值存储到本地制定后缀的文本文件中。
执行指令： scrapy crawl spiderName -o filePath

那么我们先创建个列表存储数据，并返回：

def parse(self, response):
    all_data = []
    article_list = response.xpath('/html/body/section/div/div/article')
    for article in article_list:
        title = article.xpath('./header/h2/a/@title').extract_first()
        note = article.xpath('./p[2]/text()').extract_first()
        dic = {
            'title': title,
            'note': note
        }
        all_data.append(dic)
    return all_data

存储只需一条终端指令：

scrapy crawl duanzi -o duanzi.txt

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

我们发现报错了！~ 错误解释是只能保存json、csv等格式文件

那么久来保存下csv格式的

scrapy crawl duanzi -o duanzi.csv

然后我们就看到保存成功了！.

关注 Python涛哥！学习更多Python知识！

Original: https://blog.csdn.net/tao5090694/article/details/120711959
Author: Python涛哥
Title: Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791048/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

PYTHON:turtle函数详解，turtle画图完整代码

import turtle as t import math #画面的布&#x5C4…

Python 2023年9月22日
0080
简单的Django项目

1，项目展示此次项目是一个 very简陋的Python web项目，是一个青青草原小羊展示系统，感兴趣的话就看下去叭！项目展示如下：用户注册：登录页面：首页：详情页（以懒…

Python 2023年8月6日
0071
Bert不完全手册8. 预训练不要停！Continue Pretraining

paper: Don’t stop Pretraining: Adapt Language Models to Domains and Tasks GitHub：htt…

Python 2023年10月25日
0042
【JS 逆向百例】WebSocket 协议爬虫，智慧树扫码登录案例分析

关注微信公众号：K哥爬虫，持续分享爬虫进阶、JS/安卓逆向等技术干货！声明本文章中所有内容仅供学习交流，抓包内容、敏感网址、数据接口均已做脱敏处理，严禁用于商业用途和非法用途，…

Python 2023年5月24日
0072
第3章数据分析工具Pandas

本章使用的包： import numpy as np import pandas as pd 一，Pandas的数据结构分析Pandas的数据结构分析： 1，Pandas 中有两个…

Python 2023年8月8日
0049
Postgres 日志监控：阻塞，死锁，Checkpoint 优化（译）

原文地址：https://pganalyze.com/blog/postgresql-log-monitoring-101-deadlocks-checkpoints-blocke…

Python 2023年6月16日
0068
Pytest实战

Pytest测试框架是动态语言Python专用的测试框架，使用起来非常的简单，这主要得易于它的设计，Pytest测试框架具备强大的功能，丰富的第三方插件，以及可扩展性好，可以很好的…

Python 2023年8月13日
0065
【机器学习】梯度下降之数据标准化

Python 2023年5月24日
0062
数字图像处理之直方图均衡化（python）

把原图像的直方图转换为均匀分布的形式，增加像素灰度值的动态范围，增强图像整体对比度。 1.2算法步骤： (1)列出原始图像的灰度级 k， k=0,1,2,…, L-1 …

Python 2023年8月3日
0045
Python学习.iloc和.loc区别、联系与用法

最近接触到数据科学，需要对一些数据表进行分析，观察到代码中一会出现loc一会又出现iloc，下面对两者的用法给出我的一些理解。 1.联系 (1)操作对象相同：loc和iloc都是对…

Python 2023年8月2日
0039
自制python小游戏（最后的英雄）

主程序__main__ 在这里开始run # *-* coding:utf8 *-* import pygame from _tools_ import * class Play(…

Python 2023年9月20日
0041
veer图库网站爬取

记录一下当时同学托我帮写的爬取veer图库链接的python代码 csharp;gutter:true;</p> <h1>!/usr/bin/env pyt…

Python 2023年6月11日
0067
用python整个活（4）——哥德巴赫猜想

写一篇优质一点的文章吧。数学是一个奇妙的东西，对此，也衍生出了许多的悖论与猜想，例如整活（3）的生日悖论。其实，这样的悖论和猜想还有很多很多。这篇文章会对哥德巴赫猜想用编程语…

Python 2023年8月1日
0047
《Python编程：从入门到实践》练习14-4

练习14-4：难度等级 —— 在游戏《外星人入侵》中创建一组按钮，让玩家选择起始难度等级。每个按钮都给Settings中的属性指定合适的值，以实现相应的难度等级。要实现一组按钮的…

Python 2023年9月18日
0048
python—进阶篇【函数使用技巧/注意事项】

1. 函数使用 map(func, seq1[, seq2,…])：处理值到函数的映射。func表示函数名，seq为序列，若函数的参数有多个则需多个序列。返回…

Python 2023年8月29日
0053
关于MySQLdb连接数据的使用（插入数据，删除数据，更新数据，搜索数据——前端页面完成这些对数据库的操作）

文章目录 * – 1.文件结构： – 2.MySQLdb和pymysql的使用差不多： – 3.实验效果： – 4.主文件：main…

Python 2023年8月13日
0059

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python爬虫从入门到精通:（28）scrapy数据持久化存储（基于终端指令）_Python涛哥

大家都在看