使用python中的pandas对csv文件进行拆分

2023年7月5日上午4:48 • 人工智能 • 阅读 78

之前写过一篇对大型csv文件进行拆分的文章
使用python对csv文件进行拆分
本来用着还挺顺手，直到最近在工作里，需要拆分七八百万行的csv文件，用原来的那套逻辑，居然要跑一个多小时，未免有些太慢了，于是就改用 pandas处理，只需要两分钟就可以搞定

首先是导入库和确定文件路径

import pandas as pd
import datetime

start_time = datetime.datetime.now()
path = r'D:\需要处理的文件.csv'
result_path_dir = r'D:\拆分后的输出文件路径'

这里设置 start_time是为了获取程序开始执行的时间，在程序结束的时候，可以方便查看这套逻辑总共运行了多久
2. 读取csv文件

data = pd.read_csv(path,encoding='GBK',dtype = str)

read_csv可以有很多参数，但在这次需求里，只需要目标文件、目标文件格式和字段类型就可以，本来这里是没加 dtype参数的，但后来导出数据时，发现数字会变成科学计数法，不利于业务方使用，于是就可以在读取数据的时候，直接限制每个字段都是 str类型，就可以避免这个问题
多说一句，目标文件我是从 dbeaver导出来的，按默认导出方式，也会出现科学计数法的情况，可以通过更改配置的方式避免，这里也一并记录一下，把分隔符由默认的 ,改为 \t,

3. 确认文件总行数和切分后的文件行数


row_num = len(data)

size = 300000

其中， row_num字段就是目标文件的总行数， size就是根据需求，将大文件切分后生成小文件的行数，可以根据自己需要进行调整，这里设置的是30万行
4. 开始对目标文件进行切分

j = 1

for start in range(0, row_num, size):
    stop = start + size
    filename = "{}\切分后的小文件名称_{}.csv".format(result_path_dir,j)
    d = data[start: stop]

    print("Saving file : " + filename + ", data size : " + str(len(d)))
    d.to_csv(filename,encoding='GBK', index=None)
    j = j + 1

end_time = datetime.datetime.now()

print(start_time)
print(end_time)

这里 j变量的作用是为了方便我们知道，当前是切分了多少个小文件，而循环主体实现的功能，实际就是从0开始，每次切割 size长度的行数，直到最后的 row_num，期间每生成一个小文件都会输出到指定目录下，并拼接上 j变量的值作为后缀，最后打印的两个时间，就可以看出来这段逻辑执行所需时间。个人亲测，这段逻辑用来切分800万行的csv文件，用时不到2分钟，最后附上完整代码

import pandas as pd
import datetime

start_time = datetime.datetime.now()
path = r'D:\需要处理的文件.csv'
result_path_dir = r'D:\拆分后的输出文件路径'

data = pd.read_csv(path,encoding='GBK',dtype = str)

row_num = len(data)

size = 300000

j = 1

for start in range(0, row_num, size):
    stop = start + size
    filename = "{}\切分后的小文件名称_{}.csv".format(result_path_dir,j)
    d = data[start: stop]

    print("Saving file : " + filename + ", data size : " + str(len(d)))
    d.to_csv(filename,encoding='GBK', index=None)
    j = j + 1

end_time = datetime.datetime.now()

print(start_time)
print(end_time)

Original: https://blog.csdn.net/weixin_44999258/article/details/126789337
Author: 孟意昶
Title: 使用python中的pandas对csv文件进行拆分

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/671112/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

SPSS学习（五）独立样本t检验

参考书籍：《SPSS其实很简单》应用场景：当对两个独立分组中感兴趣的一个连续因变量的均值进行比较时使用。目标：检验两个组别中关于某些感兴趣的因变量的均值是否存在显著差异数据要…

人工智能 2023年7月16日
00108
使用DBSCAN找出数据集中的异常值

引言找出数据中的异常值是数据预处理的必备工作之一，如果数据中存在异常值对于一些数据分析算法具有重大的影响。本文主要探讨关于寻找异常值（离群值）的注意事项。离群值离群值是指跟大…

人工智能 2023年6月2日
0083
BERT详解：概念、原理与应用

目录 [1] 什么是BERT？ [2] BERT的结构 [3] BERT的预训练 [4] BERT的使用 [1] 什么是BERT？ BERT是一种预训练语言模型（pre-train…

人工智能 2023年6月19日
0083
halcon知识：select_shape究竟怎么用（1）？

目录说明一、测试select_shape,如下图（单通道图） 1.1 语法结构 1.2 区域Operation选取 1.3 用另一个图再试试！二、结论三、关于Featur…

人工智能 2023年6月18日
00114
【计量经济学】时间序列回归中序列相关

【计量经济学】时间序列回归中序列相关 –潘登同学的计量经济学笔记理清这一篇的目的，第一篇时间序列在TS.1-TS.3下证明了OLS的无偏性(但是TS.3的严格外生条件…

人工智能 2023年6月18日
00113
Pytorch 模型查看网络参数的梯度以及参数更新是否正确，优化器学习率设置固定的学习率，分层设置学习率

主要目标有的时候想看一下设置了优化器和学习率之后是否按照我设置的样子去进行更新，所以想查看一下网络参数中的及各相关变量：更新前的值优化器中的学习率计算出loss之后的梯度值…

人工智能 2023年6月17日
0081
虚拟环境安装Pytorch详细教程

目录一、创建 PyTorch 虚拟环境 1.1 打开 Anaconda 自带的 Anaconda Prompt 1.2 打开 Anaconda Prompt 之后，在命令行输入命…

人工智能 2023年6月23日
0073
Python中的图像处理（第九章）Python图像增强

Python中的图像处理（第九章）Python图像增强前言一. Python准备二. Python仿真三. 小结前言随着人工智能研究的不断兴起，Python的应用也在不…

人工智能 2023年6月17日
0060
Java基础36 super关键字

Java基础36 super关键字 super 基本介绍一、基本语法二、super的使用细节三、super与this的区别基本介绍 super代表父类的引用，用于访问父类的…

人工智能 2023年6月29日
0091
SVD 理解及使用

SVD 理解及使用文章目录 SVD 理解及使用奇异值分解（SVD）原理与在降维中的应用 * 关于特征值和特征向量 SVD 的定义 SVD 的一些性质 SVD 代码实现奇异值分…

人工智能 2023年6月16日
0079
support vector regression（SVR）支持向量回归

支持向量机、 回归、 &a…

人工智能 2023年6月17日
0084
Ubuntu下安装Anaconda3、tensorflow-gpu

Ubuntu下安装Anaconda3、tensorflow-gpu（RTX3080Ti）一、安装Anaconda 从官网下载[Linux版本的Anaconda3]，选择自己想要下…

人工智能 2023年5月23日
0075
图神经网络应用——基于深度学习的图相似度计算（以SIMGNN为例的保姆级讲解）

为啥想写这篇文章呢。。因为之前提到的图神经网络应用篇鸽了一年多了，把自己的研究方向做一个总结，并向其他同样研究方向的朋友做一个报告，如有错误，敬请指出。而且，这个研究方向人太少了，…

人工智能 2023年7月13日
00146
语音识别：时间序列的动态扭曲相似度（DTW）算法

目录一、说明二、DTW算法原理分析 2.1 约束和限定 2.2 朴素的匹配 2.3 带有窗口范围的匹配三、DTW用于语音匹配 1）m和n不一定相等，这不必担心，在算法中将产生…

人工智能 2023年5月27日
00124
web框架之路由列表及SQL语句查询数据库数据替换模板变量

续接：使用web框架程序处理客户端的动态资源请求代码实现一、路由列表功能代码实现路由：是将请求路径Url到处理函数的映射，即提前将请求路径与要处理的函数进行关联路由列表：对路…

人工智能 2023年6月30日
0078
Talking-Heads Attention

多头注意力机制各头独立进行, Talking-Heads 即交头接耳. 已知矩阵 Q n 1 × d k Q_{n_1 \times d_k}Q n 1 ×d k , K n…

人工智能 2023年5月28日
0054

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

使用python中的pandas对csv文件进行拆分

大家都在看