2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

2023年7月8日下午6:00 • 人工智能 • 阅读 73

大家好，又是新的一周。大家一般会用 Pandas模块来对数据集进行进一步的分析与挖掘关键信息，但是当我们遇到数据集特别特别大的时候，内存就会爆掉，今天小编就来分享几个技巧，来帮助你避免遇到上述提到的这个情况。

`read_csv()` 方法当中的 `chunksize` 参数

read_csv()方法当中的 chunksize参数顾名思义就是对于超大 csv文件，我们可以分块来进行读取，例如文件当中有7000万行的数据，我们将 chunksize参数设置为100万，每次分100万来分批读取，代码如下

# read the large csv file with specified chunksize 
df_chunk = pd.read_csv(r'data.csv', chunksize=1000000)

这时我们得到的 df_chunk并非是一个 DataFrame对象，而是一个可迭代的对象。接下来我们使用 for循环并且将自己创立数据预处理的函数方法作用于每块的DataFrame数据集上面，代码如下

chunk_list = []  # 创建一个列表chunk_list 

# for循环遍历df_chunk当中的每一个DataFrame对象
for chunk in df_chunk:  
    # 将自己创建的数据预处理的方法作用于每个DataFrame对象上
    chunk_filter = chunk_preprocessing(chunk)

    # 将处理过后的结果append到上面建立的空列表当中
    chunk_list.append(chunk_filter)

# 然后将列表concat到一块儿
df_concat = pd.concat(chunk_list)

将不重要的列都去除掉

当然我们还可以进一步将不重要的列都给去除掉，例如某一列当中存在较大比例的空值，那么我们就可以将该列去除掉，代码如下

# Filter out unimportant columns
df = df[['col_1','col_2', 'col_3', 'col_4', 'col_5', 'col_6','col_7', 'col_8', 'col_9', 'col_10']]

当然我们要去除掉空值可以调用 df.dropna()方法，一般也可以提高数据的准确性以及减少内存的消耗

转变数据格式

最后我们可以通过改变数据类型来压缩内存空间，一般情况下， Pandas模块会给数据列自动设置默认的数据类型，很多数据类型里面还有 子类型，而这些子类型可以用 更加少的字节数来表示，下表给出了各子类型所占的字节数

对于内存当中的数据，我们可以这么来理解，内存相当于是仓库，而数据则相当于是货物，货物在入仓库之前呢需要将其装入箱子当中，现在有着大、中、小三种箱子，

现在Pandas在读取数据的时候是将这些数据 无论其类型，都是 装到大箱子当中去，因此会在很快的时间里仓库也就是内存 就满了。

因此我们优化的思路就在于是 遍历每一列，然后找出该列的最大值与最小值，我们将这些最大最小值与子类型当中的最大最小值去做比较，挑选字节数最小的子类型。

我们举个例子， Pandas默认是 int64类型的某一列最大值与最小值分别是0和100，而 int8类型是可以存储数值在-128~127之间的，因此我们可以将该列从 int64类型转换成 int8类型，也就同时节省了不少内存的空间。

我们将上面的思路整理成代码，就是如下所示

def reduce_mem_usage(df):
    """ 遍历DataFrame数据集中的每列数据集
    并且更改它们的数据类型        
"""
    start_memory = df.memory_usage().sum() / 1024**2
    print('DataFrame所占用的数据集有: {:.2f} MB'.format(start_memory))

    for col in df.columns:
        col_type = df[col].dtype

        if col_type != object:
            col_min = df[col].min()
            col_max = df[col].max()
            if str(col_type)[:3] == 'int':
                if col_min > np.iinfo(np.int8).min and col_max  np.iinfo(np.int16).min and col_max  np.iinfo(np.int32).min and col_max  np.iinfo(np.int64).min and col_max  np.finfo(np.float16).min and col_max  np.finfo(np.float32).min and col_max

大家可以将小编写的这个函数方法拿去尝试一番，看一下效果如何？！

NO. 1

往期推荐

Historical articles

分享、收藏、点赞、在看安排一下？

Original: https://blog.csdn.net/weixin_43373042/article/details/121917900
Author: 欣一2002
Title: 2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/679010/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

OpenCV每日函数图像过滤模块 (1) bilateralFilter函数(双边滤波)

一、概述过滤可能是图像处理和计算机视觉中最基本的操作。在术语”过滤”的最广义上，过滤图像在给定位置的值是输入图像在同一位置的小邻域中的值的函数。例如，高…

人工智能 2023年6月24日
0074
语音认别—唤醒技术KWS介绍

语音认别—唤醒技术KWS介绍由于目前终端（如手机）上的CPU还不足够强劲，不能让语音识别的各种算法跑在终端上，尤其现在语音识别都是基于深度学习来做了，更加不能跑在终端…

人工智能 2023年5月27日
0091
从pandas数据处理到知识图谱构建笔记

从pandas数据处理到知识图谱构建笔记一、数据处理 1.读取文件夹下所有姓名xls文件并整合: import pandas as pd import numpy as np i…

人工智能 2023年7月16日
0045
【动手学习pytorch笔记】2.softmax回归

图像分类数据集 %matplotlib inline import torch import torchvision from torch.utils import data fr…

人工智能 2023年6月17日
0057
Could not load library cudnn_cnn_infer64_8.dll. Error code 126

Could not load library cudnn_cnn_infer64_8.dll. Error code 126 解决Could not load library cu…

人工智能 2023年7月28日
0057
有Python基础学习PyTorch，可以选择的书籍有哪些？

为更好理解人工智能、机器学习和深度学习的关系，我们画几个同心的圆圈，人工智能位于最外层，人工智能最早出现，范畴最大，然后向内是机器学习，最后是驱动今天人工智能迅速发展的深度学习，它…

人工智能 2023年7月22日
00110
tensorflow-gpu安装教程【1.x版本与2.x版本都适用的安装教程】cuda与cudnn简单安装（避坑），无需去官网下载

tensorflow-gpu安装教程【1.x版本与2.x版本都适用】cuda与cudnn简单安装，无需去官网下载 * – 1.安装Anaconda – 2….

人工智能 2023年5月26日
0042
浅谈计算机领域顶会与顶刊的那些事

目录一. 刊与会的差别二. 刊与会的权重以及选择三. 论文的含金量与其发表途径的关系总结最近在网上闲逛，发现很多做CS的学生都在问发顶刊还是顶会这样的问题，而相关的回答又是千差万…

人工智能 2023年6月25日
0062
HLS图像处理（准备工作）opencv库

本博客主要记录一下hls来做图像处理时所需要装的opencv库具体内容可以参考xilinx的文档https://xilinx.github.io/Vitis_Libraries/v…

人工智能 2023年6月18日
0070
PyTorch——自注意力（self-attention）机制实现（代码详解）

参考链接 https://www.bilibili.com/video/BV1JE411g7XF?p=54 https://arxiv.org/abs/1706.03762 htt…

人工智能 2023年6月17日
0056
ITK-Snap 处理医疗影像

文章目录 0 引言 1. ITK-Snap基本功能 * 1.1 ITK-Snap视图介绍 1.2 File菜单 1.3 Edit编辑菜单 – 1.3.1 个性化标注 1…

人工智能 2023年6月23日
0071
数据分析之pandas数据排列【sort_values()、sort_index()】

Pandas 支持三种排序方式，按索引标签排序，按列里的值排序，按两种方式混合排序。按值排序：sort_values() Series.sort_values() 方法用于按值对…

人工智能 2023年6月11日
00141
NLP，对比学习SimCSE和Rdrop的区别

参考文章1：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/118447050参考文章2：https://www.mo…

人工智能 2023年6月2日
0076
一文读懂Diffusion model

一．扩散定义在算法中，它替代了 GAN网络。注：GAN网络是一个生成对抗网络，它存在的问题：（1）模型会学到一些我们不希望出现的东西，模型收敛难度高。（2）只为了骗过判决器，多样…

人工智能 2023年6月16日
0063
Python数据分析：相关系数矩阵

【小白从小学Python、C、Java】【Python全国计算机等级考试】【Python数据分析考试必会题】● 标题与摘要Python数据分析相关系数矩阵 ● 选择题以下关于相关系…

人工智能 2023年7月14日
0044
DNA 12. SCI 文章绘图之全基因组关联分析可视化(GWAS)

点击关注，桓峰基因桓峰基因生物信息分析，SCI文章撰写及生物信息基础知识学习：R语言学习，perl基础编程，linux系统命令，Python遇见更好的你 134篇原创内容公众…

人工智能 2023年7月15日
00109

2024 年 4 月
一	二	三	四	五	六	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

2000字详解 当Pandas遇上超大规模的数据集该如何处理呢？

read_csv() 方法当中的 chunksize 参数

将不重要的列都去除掉

转变数据格式

大家都在看

2000字详解当Pandas遇上超大规模的数据集该如何处理呢？

`read_csv()` 方法当中的 `chunksize` 参数