pandas处理较大数据量级的方法-chunk,hdf,pkl

前情提要:

工作原因需要处理一批约30G左右的CSV数据,数据量级不需要hadoop的使用,同时由于办公的本本内存较低的缘故,需要解读取数据时内存不足的原因。

操作流程:

方法与方式:首先是读取数据,常见的csv格式读取时一次性全部读取进来, 面对数据量较大(本次3亿条实车数据)时,需要 分批并且有 选择性的读取后 提取有效信息 删除冗余信息并清理内存。

同时,为了使处理数据时效率更高,将整理好的数据实时读取进来以后, 保存成快速且可读的数据形式另行存储。然后 释放内存并读取下一批数据直到整个流程结束

下面是操作代码:

gc.collect()放在del 参数的后面用以及时释放内存。

读取的核心代码是:

本次读取的存储格式采用的是h5格式即hdf,该种格式易于读取较大数据量级,同时也有一些数据格式可以保存较大的数据量级: pkl ,npy等

推荐h5(保存dataframe)与pkl(保存字典格式),其读取速度更快.易于使用

h5格式调用pandas内置对dataframe的保存即可: 例 df是一个需要保存的较大的dataframe。代码为

pkl 保存需要先导入pickle ,所需保存的字典为ans_vid, 代码如下

Original: https://www.cnblogs.com/techs-wenzhe/p/10937903.html
Author: 冻雨冷雾
Title: pandas处理较大数据量级的方法-chunk,hdf,pkl

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/575590/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球