scrapy持久化存储

2023年10月4日下午9:09 • Python • 阅读 41

1、基于终端命令存储

1、基于终端的持久化存储：只可以将 parse方法里的返回值存储到 本地文件中。
2、持久化存储的文件类型只可为：json、jsonlines、jl、csv、xml
3、操作： scrapy crawl xxx -o filePath
4、优缺点：局限性强，只能存储上述的文件类型，但方便简洁。

2、基于管道存储

1、定义属性

在item类中定义相关属性，

; 2、封装对象

讲解析到的数据封装存储到item类型的对象中

3、提交item对象

将item类型的对象提交给管道进行持久化存储

上图的

yield item

4、持久化存储操作

在管道文件中的process_item中将接收到的item对象中存储的数据进行持久化存储操作。（存储在mysql中）


import pymysql

from itemadapter import ItemAdapter

class QiushibaikePipeline:
    fp = None

    def open_spider(self, spider):
        print("Begin......")
        self.fp = open("./qiushi.txt", 'w', encoding='utf-8')

    def process_item(self, item, spider):
        author = item['author']
        content = item['content']

        self.fp.write(author + ":" + content + "\n")

        return item

    def close_spider(self, spider):
        print("End......")
        self.fp.close()

class mysqlPipeline(object):
    conn = None
    cursor = None

    def open_spider(self, spider):
        self.conn = pymysql.Connect(host='localhost', user='root', password='123456', port=3306, db="qiushibaike", charset='utf8')

    def process_item(self, item, spider):
        self.cursor =self.conn.cursor()
        try:
            self.cursor.execute('insert into qiushibaike values("%s","%s")'%(item['author'], item['content']))
            self.conn.commit()
        except Exception as e:
            print(e)
            self.conn.rollback()

            return item

    def close_spider(self, spider):
        self.cursor.close()
        self.conn.close()

要先建立好对应的数据库数据表
可以使用终端命令

mysql-uroot -p

开启数据库，然后输入密码，在输入

creata database 数据库名

创建好数据库后，转入这个数据库

use 数据库名

创建表单

create table 表单名（类型）

然后exit退出

5、配置文件

只有在配置中写入的管道类，该类才会执行，对应的后面数值表示的是执行顺序。
要注意的是：爬虫文件提交的item只会给管道中的第一个被执行的管道类接收，如果有若干个管道类的话，就要在被传入的管道类里在传出item类型。

return item

为了编写方便，建议在每一个管道类中都返回一次item，以便在之后修改代码时提供便利。

Original: https://blog.csdn.net/weixin_44457673/article/details/117814910
Author: 独角兽小马
Title: scrapy持久化存储

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/791305/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

【Spinning up】2.1、将Matplotlib自动全屏显示和保存图像(Saving Matplotlib graphs to image as full screen)

2.1、将Matplotlib自动全屏显示和保存图像(Saving Matplotlib graphs to image as full screen) 前言：每次matplot…

Python 2023年9月3日
00119
万文爆肝╭❤～零基础学Flask框架，速速收藏不然就不见了

文章目录认识Flask * Flask 了解框架为什么要用Web框架 Flask框架的诞生 Flask扩展包安装环境 * 安装Flask 安装Flask依赖包视图 * 从 …

Python 2023年8月12日
0048
golang中的锁竞争问题

当我们打印错误的时候使用锁可能会带来意想不到的结果。我们看下面的例子： package main import ( "fmt" "sync&quot…

Python 2023年10月17日
0029
【车道线检测】霍夫变换(HoughLines)检测直线详解

总结霍夫变换是一种思想，用来检测任意能够用数学公式表达的形状，即使这个形状被破坏或者有点扭曲。霍夫变换的原理是将特定图形上的点变换到一组参数空间上，根据参数空间点的累计结果…

Python 2023年10月7日
0068
Python和Java相比，开发效率如何？

推荐文章很多小伙伴都发现了，用户自主「申请上首页」的按钮取消了，那博主们写的文章还有上首页曝光的机会吗？我们的回答是”当然有！！！”虽然我们取消了上首页申…

Python 2023年5月24日
0064
基于SqlSugar的开发框架循序渐进介绍（22）– Vue3+TypeScript的前端工作流模块中实现统一的表单编辑和表单详情查看处理

在工作流页面中，除了特定的业务表单信息外，往往也需要同时展示通用申请单的相关信息，因此在页面设计的时候需要使用一些组件化的概念来实现动态的内容展示处理，本篇随笔介绍Vue3+Typ…

Python 2023年10月15日
0066
Linux0.11 考古笔记

Linux0.11 考古笔记最近读完《Linux 内核完全注释》和《品读 Linux0.11 核心代码》，大致理解下 Linux0.11 内核的全貌。在我理解这些属于计算机基础类…

Python 2023年9月30日
0057
np.random.permutation（）函数《numpy学习篇》

1.np.random.permutation（）总体来说他是一个随机排列函数，就是将输入的数据进行随机排列，官方文档指出，此函数只能针对一维数据随机排列，对于多维数据只能对第一…

Python 2023年8月28日
0069
打包python程序成exe

安装pyinstaller 直接在cmd使用pip命令安装pyinstaller。 pip install pyinstaller 如果因为网速问题安装失败可以尝试使用国内源。 p…

Python 2023年9月22日
0035
Vue2中使用axios发送请求，Django中接收请求

1.在vue2中引入axios axios是一个基于 promise 的 HTTP 库，简单的讲就是可以发送get、post请求。首先在vue项目中找到 main.js 加入以下…

Python 2023年8月3日
0054
1.机器学习基础

1.1.1机器学习工作流程数据,算法,计算力(CPU:适合I\O密集型的任务,GPU:适合计算密集型任务,TPU) 人工智能–>机器学–>深度学习 1.2机器学习…

Python 2023年8月26日
0062
【机器学习】python使用matplotlib进行二维数据绘图并保存为png图片

端到端机器学习导航：【机器学习】python借助pandas加载并显示csv数据文件，并绘制直方图【机器学习】python使用matplotlib进行二维数据绘图并保存为png图片…

Python 2023年8月30日
0069
python与Electron联合编程记录之二(基础环境准备)

一、基础环境准备 1、安装python 下载官网最新python版本安装，不要安装conda或者anaconda等python科学集成环境，否则有可能出现错误，且不容易排除错误，我…

Python 2023年8月11日
0055
Pandas数据分析18——pandas文本处理

参考书目：《深入浅出Pandas：利用Python进行数据处理与分析》 pandas对文本数据也有很多便捷处理方法，可以不用写循环，向量化操作运算速度快，还可以进行高级的正则表达式…

Python 2023年8月16日
0066
python3教程：*和**的打包和解包的用法

一. 打包参数 1. * 的作用：在函数定义中，收集所有的位置参数到一个新的元组，并将这个元组赋值给变量args >>> def f(*args): print(…

Python 2023年11月2日
0062
数据分析之实例一：餐厅订单数据分析

实例一：餐厅订单数据分析 #先进行设置 import pandas a…

Python 2023年8月17日
0060

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31