pandas处理较大数据量级的方法-chunk,hdf,pkl

2023年6月6日上午6:36 • 人工智能 • 阅读 91

前情提要:

工作原因需要处理一批约30G左右的CSV数据，数据量级不需要hadoop的使用，同时由于办公的本本内存较低的缘故，需要解读取数据时内存不足的原因。

操作流程：

方法与方式:首先是读取数据，常见的csv格式读取时一次性全部读取进来，面对数据量较大(本次3亿条实车数据)时，需要分批并且有 选择性的读取后提取有效信息删除冗余信息并清理内存。

同时，为了使处理数据时效率更高，将整理好的数据实时读取进来以后， 保存成快速且可读的数据形式另行存储。然后 释放内存并读取下一批数据直到整个流程结束

下面是操作代码:

gc.collect()放在del 参数的后面用以及时释放内存。

读取的核心代码是:

本次读取的存储格式采用的是h5格式即hdf，该种格式易于读取较大数据量级，同时也有一些数据格式可以保存较大的数据量级: pkl ,npy等

推荐h5（保存dataframe）与pkl（保存字典格式），其读取速度更快.易于使用

h5格式调用pandas内置对dataframe的保存即可: 例 df是一个需要保存的较大的dataframe。代码为

pkl 保存需要先导入pickle ，所需保存的字典为ans_vid，代码如下

Original: https://www.cnblogs.com/techs-wenzhe/p/10937903.html
Author: 冻雨冷雾
Title: pandas处理较大数据量级的方法-chunk,hdf,pkl

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/575590/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Python实现哈希表（分离链接法）

构建简单的哈希表（字典对象）一、python实现哈希表只使用list，构建简单的哈希表（字典对象）不使用字典构造的分离连接法版哈希表 class HashList(): &q…

人工智能 2023年6月4日
0082
行业洞察 | 未来人形机器可能是最懂你的人

近期，小米展示了全尺寸人形仿生机器人CyberOne。据悉，CyberOne身高177CM、体重52KG，艺名”铁大”，能够感知人类情绪、视觉敏锐、可实现双…

人工智能 2023年6月5日
0075
Web3 新手教程：从入门到精通

Web3 专栏作者：文心 – 挖掘解读最真实的Web3世界 Web3教程专题｜ Web3新手教程 – 第 8 期如果你也喜欢Web3，希望在这做些有趣的…

人工智能 2023年7月30日
0034
pytorch中RNN参数

放几个官方的图片： ; 输入 RNN中的参数必须要的是input_size和hidden_size 首先看input_sizeinput_size的维度是(seq_len, bat…

人工智能 2023年5月30日
0081
Linux上安装tensorflow

抵扣说明： 1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。2.余额无法直接购买下载，可以购买VIP、C币套餐、付费专栏及课程。 Original: https:…

人工智能 2023年5月25日
0056
pytorch之model.cuda()、model.train()和model.eval()

model.cuda() 在pytorch中，即使是有GPU的机器，它也不会自动使用GPU，而是需要在程序中显示指定。调用model.cuda()，可以将模型加载到GPU上去。 m…

人工智能 2023年7月20日
0083
ASR项目实战-架构设计

通常，业务需求被用作架构设计的输入。 [En] In general, business demands are used as inputs to architectural d…

人工智能 2023年5月27日
0082
项目：机器学习+FLD分类+python图像处理mnist数据集

机器学习+FLD分类+python图像处理mnist数据集 ** 以mnist数据集实现Fisher Linear Discriminant(FLD)的分类以及降维功能任务一如下…

人工智能 2023年6月21日
0097
【pandas小技巧】删除某列中包含nan的数据

删除某列中包含nan的数据最近用pandas比较频繁，需要删除指定的某列中有nan的整个行数据爬虫爬下来的数据，有时候会有缺失，所以需要删除掉这种空数据，wps里面是挺好筛选的…

人工智能 2023年7月9日
0077
语义分割系列5-Pspnet（pytorch实现）

Pspnet全名Pyramid Scene Parsing Network，论文地址：Pyramid Scene Parsing Network 论文名就是《Pyramid Sce…

人工智能 2023年7月20日
0066
作为前端你还不懂MutationObserver？那Out了

🐱 个人主页：不叫猫先生🙋‍♂️ 作者简介：前端领域新星创作者、阿里云专家博主，专注于前端各领域技术，共同学习共同进步，一起加油呀！💫系列专栏：vue3从入门到精通、TypeSc…

人工智能 2023年7月31日
0065
机器学习案例——鸢尾花分类学习笔记

学习书籍：Python机器学习基础教程工具：jupyter notebook 目标：已有花瓣的长度和宽度以及花萼的长度和宽度的训练集，训练模型鉴定花是属于setosa、versi…

人工智能 2023年7月1日
0082
五、使用Python操作数据库

（六）使用Python操作数据程序运行时，数据是在内存中。当程序终止时，通常需将数据保存在磁盘上。为了便于程序保存和读取数据，并能直接通过条件快速查询到指定数据，数据库（Data…

人工智能 2023年7月30日
0074
Neural Entity Linking 方法与进展

在命名实体识别(Named Entity Recognition)任务中，我们通常把一段token序列认定为一个实体，但严格来说这并不准确，这应该被称为一个提及(Mention)…

人工智能 2023年6月1日
0066
机器学习 keras tensorflow 的一些例子

keras 将散点数据拟合为函数导⼊相应的库包import tensorflow as tfimport numpy as npimport tensorflow.keras a…

人工智能 2023年5月25日
0050
机器学习:局部加权线性回归(Locally Weighted Linear Regression)

线性回归先复习一下线性回归的损失函数：我们的目标是使该函数最小，用矩阵表示为：对参数w求导得：令上式等于0可估计出回归系数w得最优解：但线性回归往往容易欠拟合，除了使用更复杂得函…

人工智能 2023年6月15日
00117

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

pandas处理较大数据量级的方法-chunk,hdf,pkl

大家都在看