Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比

2023年8月7日上午8:36 • Python • 阅读 57

今天看到一篇文章

参考：对比不同主流存储格式（csv, feather, jay, h5, parquet, pickle）的读取效率

然后我自己也试了一下，感觉发现了”新大陆”，T_T~到现在才知道还有这些存储形式，比这excel、csv快多了。

上次实习的时候，因为不知道可以存为其他格式，把多个几十个G的dataframe处理完后存为csv，过后又要读出来

心态瞬间崩了~

搞数据都搞了好久，浪费时间~拐求

多的不说，直接看效果

Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比

这个结论直接借一下参考文章的，有需要的可以详细看参考文章

还有就是，数据稍微大一点，最好不要存为 excel 格式，这真的~慢

最后最后，在借用这位大兄弟的一句话

; desk 读取CSV文件

读

import time
import dask
import dask.dataframe as dd
from dask.diagnostics import ProgressBar
from numba import jit
import pandas as pd
import numpy as np
import sys

switchDict = {
    0 : 'TEST',
    1 : 'ALL'
}

status = switchDict[1]
@jit
def importData(fileName):
    if status == 'TEST':
        df = dd.read_csv(fileName, header=None, blocksize="100MB").head(17000)
    else:
        df = dd.read_csv(fileName,  blocksize="64MB").compute()
    df.index = pd.RangeIndex(start=0, stop=len(df))
    return df

t0=time.time()
t1= time.perf_counter()
with ProgressBar():
    data = importData('train.csv')
t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 3.421277699999337
wall time: 3.421303749084473
'''
print(f"当前数据框占用内存大小：{sys.getsizeof(data)/1024/1024:.2f}M")
data.shape

一、excel 存储格式（xlsx）

存

存为excel表，真的慢到天荒~拉胯啊

import time
t0=time.time()
t1= time.perf_counter()

data.to_excel("data.xlsx")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)

等了十几分钟，算了~

读

import time
t0=time.time()
t1= time.perf_counter()

data_excel = pd.read_excel("./data.xlsx")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)

二、csv 存储格式

存

import time
t0=time.time()
t1= time.perf_counter()

data.to_csv("data.csv")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 32.49002720000135
wall time: 32.48996901512146
'''

读

import time
t0=time.time()
t1= time.perf_counter()

data_csv = pd.read_csv("./data.csv")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 7.5742819999995845
wall time: 7.574833154678345
'''

三、pickle 存储格式

Pickle：用于序列化和反序列化Python对象结构

详细百度八~

存

import time
t0=time.time()
t1= time.perf_counter()

data.to_pickle("data.pkl.gzip")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 1.1933384000002625
wall time: 1.1980044841766357
'''

读

import time
t0=time.time()
t1= time.perf_counter()

data_pickle = pd.read_pickle("./data.pkl.gzip")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 1.246990000000551
wall time: 1.246736764907837
'''

四、feather 存储格式

Feather：一个快速、轻量级的存储框架

网上很多推荐这个存储格式的

再见 CSV，速度提升 150 倍！

详细百度八~

存

import time
t0=time.time()
t1= time.perf_counter()

data.to_feather("data.feather")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 0.5462657999996736
wall time: 0.5466225147247314
'''

读

t0=time.time()
t1=time.perf_counter()

data_feather = pd.read_feather("./data.feather")

t2=time.time()
t3=time.perf_counter()
print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 0.6685380999997506
wall time: 0.6682815551757812
'''

五、parquet 存储格式

Parquet：Apache Hadoop的列式存储格式

详细百度八~

存

import time
t0=time.time()
t1= time.perf_counter()

data.to_parquet("data.parquet")

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 2.874607599999763
wall time: 2.874359369277954
'''

读

t0=time.time()
t1=time.perf_counter()

data_parquet = pd.read_parquet("./data.parquet")

t2=time.time()
t3=time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 0.9940449000000153
wall time: 0.9959096908569336
'''

六、jay 存储格式

安装 datatable 包

pip install -i https://pypi.doubanio.com/simple/ --trusted-host pypi.doubanio.com datatable

存

import datatable as dt
t0=time.time()
t1=time.perf_counter()

dt.Frame(data).to_jay("data.jay")

t2=time.time()
t3=time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 6.169269200000599
wall time: 6.168536901473999
'''

读

当我查看内容时，该对象是frame

t0=time.time()
t1=time.perf_counter()

data_jay = dt.fread("./data.jay")

t2=time.time()
t3=time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 0.03480849999959901
wall time: 0.034420013427734375
'''
data_jay.shape

七、hdf5 存储格式

存

普通格式存储

import time
t0=time.time()
t1= time.perf_counter()

h5 = pd.HDFStore('./data.h5','w')
h5['data'] = data
h5.close()

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 2.1860209000005852
wall time: 2.186391592025757
'''

压缩格式存储

import time
t0=time.time()
t1= time.perf_counter()

h5 = pd.HDFStore('./data.h5','w', complevel=4, complib='blosc')
h5['data'] = data
h5.close()

t2=time.time()
t3= time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 1.9893786000002365
wall time: 1.9896411895751953
'''

读

t0=time.time()
t1=time.perf_counter()

data_hdf5 = pd.read_hdf('./data.h5',key='data')

t2=time.time()
t3=time.perf_counter()

print("cpu time:",t3-t1)
print("wall time:",t2-t0)
'''
cpu time: 1.4497185000000172
wall time: 1.4497275352478027
'''

Original: https://blog.csdn.net/qq_42374697/article/details/121282994
Author: 卖山楂啦prss
Title: Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/739569/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

独家 | 是时候和pd.read_csv(), pd.to_csv()说再见了

作者：Avi Chawla 翻译：欧阳锦校对：和中华本文约1100字，建议阅读5分钟本文将带你探索Dask和DataTable，这两个类 Pandas 库。 Pandas 对…

Python 2023年8月21日
0057
模仿学习（Imitation Learning）概述

目录 1 算法介绍 1.1 什么是专家示范数据？ 1.2 Behavior Cloning 1.2.1 算法思路 1.2.2 算法步骤 1.2.3 算法特性 1.2.4 算法改进d…

Python 2023年9月17日
0031
RuntimeError: Working outside of request context. This typically means that you attempted to use fun

菜吃多了醉了一、报错情况二、解决办法一、报错情况我在写装饰器的时候运行报错： RuntimeError: Working outside of request contex…

Python 2023年8月13日
00266
SpringBoot2.x整合Prometheus+Grafana【附源码+视频】

图文并茂，新手&#…

Python 2023年6月10日
0059
Java函数式编程：二、高阶函数，闭包，函数组合以及柯里化

高阶函数闭包概念函数组合处理函数的使用柯里化以及部分求值下面开始：高阶函数这里指的可不是数学里的那个，这里主要要从维度这个概念理解，本来函数生成的是值，也就是说，函数比值…

Python 2023年10月16日
0036
python计算机视觉第一章

文章目录 1.1PIL:python图像处理类库 * 1.1.1转换图像格式 1.1.2创建缩略图 1.1.3复制和粘贴图像区域 1.1.4调整尺寸和旋转 1.2Matplotll…

Python 2023年9月3日
0041
我说HashMap初始容量是16，面试官让我回去等通知

众所周知HashMap是工作和面试中最常遇到的数据类型，但很多人对HashMap的知识止步于会用的程度，对它的底层实现原理一知半解，了解过很多HashMap的知识点，却都是散乱不成…

Python 2023年10月19日
0021
windows python + flask + nginx同局域下开放接口

由于flask本地启用后，只能自己调用，同局域网下想给其他同事使用，是无法访问的，因此通过nginx对外开放ip+端口，然后转发进行调用。第一种方式 1、先确定好启动端口，如我使…

Python 2023年8月9日
0056
聊聊 asp.net core 认证和授权

使用asp.net core 开发应用系统过程中，基本上都会涉及到用户身份的认证，及授权访问控制，因此了解认证和授权流程也相当重要，下面通过分析asp.net core 框架中的认…

Python 2023年10月22日
0026
python flask大作业，疫情数据大屏可视化展示

数据库更新数据时间通过每次更新数据库数据时更新时间戳，然后在html文件中创建该模块，在css文件中设置模块的位置及属性，通过ajax技术，获取时间戳，然后通过id定位到该模块，…

Python 2023年8月9日
0037
Day44——Dp专题

文章目录 * – 子序列问题 – + 27.最长递增子序列 + 28、最长连续递增序列 + 29、最长重复子数组 + 30、最长公共子序列 + 31、不相交…

Python 2023年9月25日
0041
Django uwsgi apscheduler定时任务重复执行问题解决

1、现状问题为了满足用户动态添加定时任务，因此选择apscheduler模块，apscheduler支持cron指令形式的定时任务，可通过api接口实现动态添加定时任务。问题：d…

Python 2023年8月4日
00194
Pandas 十五：批量拆分Excel与合并Excel

实例演示： 1.将一个大Excel等份拆成多个Excel2.将多个小Excel合并成一个大Excel并标记来源 work_dir="./course_datas/c15_…

Python 2023年8月8日
0031
我用python代码把舞蹈区的精华下载下来慢慢欣赏~

Original: https://www.cnblogs.com/Qqun261823976/p/16434686.htmlAuthor: python倩Title: 我用pyt…

Python 2023年5月23日
0045
前后端分离之评论功能前端（1）——django+mysql+vue+element+axios

评论系统前端 * – 一. 导入vue和element用到的组件 – 二. 使用element设计页面 – + 2.1 导航菜单 + 2.2 输…

Python 2023年8月5日
0039
Go map 竟然也会发生内存泄漏？

Go 程序运行时，有些场景下会导致进程进入某个”高点”，然后就再也下不来了。比如，多年前曹大写过的一篇文章讲过，在做活动时线上涌入的大流量把 gorout…

Python 2023年10月15日
0055

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

Python Dataframe之excel、csv、pickle、feather、parquet、jay、hdf5 文件存储格式==》存读效率对比

文章目录

大家都在看