python读取excel丨换一种存储格式, 读取速度提升几倍

您好, 本博客将持续更新python数据分析技巧, 一次解决一个问题,欢迎关注订阅!

本次介绍提升excel文件读取速度问题
工作中我们会有一些大文件(excel, csv等), 作为基础数据经常会读取, 如何减少读取时间, 提升效率呢?

今天用了一个88万行13列的表格, 按不同的方式读取比较读取用时如下:

python读取excel丨换一种存储格式, 读取速度提升几倍
  1. excel文件: 文大小 61.9M, 读取用时 200秒
  2. csv文件: 文件大小 194M, 读取用时 5秒
  3. hdf文件: 文件大小 80M, 读取用时 2

相同的数据, 用hdf方式读取速度比其他两种快很多, 大文件建议不要存储为excel格式

; 代码

import pandas as pd
import time
t1 = time.time()

data_excel = pd.read_excel('./data_excel.xlsx')

t2 = time.time()

print('读取用时:', t2 - t1)

dataframe转hdf文件

使用pandas.to_hdf()方法将dataframe转成后缀为h5的文件

data_csv.to_hdf('./data_hdf.h5',key='xy')

更多参数介绍: https://www.cjavapy.com/article/795/

更多python技巧, 欢迎关注!

Original: https://blog.csdn.net/muyashui/article/details/122584977
Author: python技巧(数据分析及可视化)
Title: python读取excel丨换一种存储格式, 读取速度提升几倍

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/698096/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球