python能处理csv文件吗_python处理csv文件非常慢

2023年8月9日上午4:12 • Python • 阅读 57

因此,我尝试打开一个csv文件,读取它的字段,并基于此修复其他一些字段,然后将数据保存回csv。我的问题是csv文件有200万行。最好的方法是什么来加快速度。

csv文件包括

ID; DATE(d/m/y); SPECIAL_ID; DAY; MONTH; YEAR

我正在计算同一日期的行在我的记录中出现的频率,然后根据该数据更新特殊的\u id。

根据我以前的研究,我决定用熊猫。我将在将来处理更大的数据集(1-2GB)-这一个大约119MB,所以我必须找到一个好的快速解决方案。

我的代码如下:

df = pd.read_csv(filename, delimiter=’;’)

df_fixed= pd.DataFrame(columns=stolpci) #when I process the row in df I append it do df_fixed

d = 31

m = 12

y = 100

s = (y,m,d)

list_dates= np.zeros(s) #3 dimensional array.

for index, row in df.iterrows():

PROCESSING LOGIC GOES HERE

IT CONSISTS OF FEW IF STATEMENTS

list_dates[row.DAY][row.MONTH][row.YEAR] += 1

row[‘special_id’] = list_dates[row.DAY][row.MONTH][row.YEAR]

df_fixed = df_fixed.append(row.to_frame().T)

df_fixed .to_csv(filename_fixed, sep=’;’, encoding=’utf-8′)

我试着每处理1000行就打印一次。起初,我的脚本1000行需要3秒,但运行时间越长,速度越慢。

在43000排,需要29秒等等…

感谢以后的帮助:)

编辑:

我正在添加有关csv和expected输出的其他信息

ID;SPECIAL_ID;sex;age;zone;key;day;month;year

2;13012016505__-;F;1;1001001;1001001_F_1;13;1;2016

3;25122013505__-;F;4;1001001;1001001_F_4;25;12;2013

4;24022012505__-;F;5;1001001;1001001_F_5;24;2;2012

5;09032012505__-;F;5;1001001;1001001_F_5;9;3;2012

6;21082011505__-;F;6;1001001;1001001_F_6;21;8;2011

7;16082011505__-;F;6;1001001;1001001_F_6;16;8;2011

8;21102011505__-;F;6;1001001;1001001_F_6;16;8;2011

我得换了

-在”特殊ID”字段中输入正确的数字。

例如,对于具有

id=2特殊的\u id将

26022018505001(

-被001替换)如果csv中的其他人在同一天、同一个月、同一年、同一天共享,那么uuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuuu

因此,上述行的expected输出将是

ID;SPECIAL_ID;sex;age;zone;key;day;month;year

2;13012016505001;F;1;1001001;1001001_F_1;13;1;2016

3;25122013505001;F;4;1001001;1001001_F_4;25;12;2013

4;24022012505001;F;5;1001001;1001001_F_5;24;2;2012

5;09032012505001;F;5;1001001;1001001_F_5;9;3;2012

6;21082011505001;F;6;1001001;1001001_F_6;21;8;2011

7;16082011505001;F;6;1001001;1001001_F_6;16;8;2011

8;21102011505002;F;6;1001001;1001001_F_6;16;8;2011

编辑:

我把代码改成这样:我用数据填充听写列表,然后将该列表转换为数据帧并另存为csv。这需要大约30分钟才能完成

list_popravljeni = []

df = pd.read_csv(filename, delimiter=’;’)

df_dates = df.groupby(by=[‘dan_roj’, ‘mesec_roj’, ‘leto_roj’]).size().reset_index()

for index, row in df_dates.iterrows():

df_candidates= df.loc[(df[‘dan_roj’] == dan_roj) & (df[‘mesec_roj’] == mesec_roj) & (df[‘leto_roj’] == leto_roj) ]

for index, row in df_candidates.iterrows():

vrstica = {}

vrstica[‘ID’] = row[‘identifikator’]

vrstica[‘SPECIAL_ID’] = row[’emso’][0:11] + str(index).zfill(2)

vrstica[‘day’] = row[‘day’]

vrstica[‘MONTH’] = row[‘MONTH’]

vrstica[‘YEAR’] = row[‘YEAR’]

list_popravljeni.append(vrstica)

pd.DataFrame(list_popravljeni, columns=list_popravljeni[0].keys())

Original: https://blog.csdn.net/weixin_28692817/article/details/112923656
Author: 孙煜征
Title: python能处理csv文件吗_python处理csv文件非常慢

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/743895/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

yolov7：win10下的安装配置以及训练自己的数据集（从VOC转换为YOLO）

安装并测试yolov7 一、下载yolov7 GitHub – WongKinYiu/yolov7: Implementation of paper – Y…

Python 2023年10月26日
0044
C# 11新特性之file关键字

C#11 添加了文件作用域类型功能：一个新的 file 修饰符，可以应用于任何类型定义以限制其只能在当前文件中使用。这样，我们可以在一个项目中拥有多个同名的类。示例 file不可…

Python 2023年10月12日
0057
Pytest单元测试框架

文章目录 * – 一、Pytest简介 – 二、Pytest代码编写 – + 1.编写代码注意事项 + 2.pytest测试用例运行方式 + *…

Python 2023年9月10日
0056
数据库系统课程设计（高校成绩管理数据库系统的设计与实现）

目录 1、需求分析 1 1.1 数据需求描述 1 1.2 系统功能需求 3 1.3 其他性能需求 4 2、概念结构设计 4 2.1 局部E-R图 4 2.2 全局E-R图 5 2….

Python 2023年10月9日
0044
深度学习入门：基于Python的理论与实现——第一章Python入门

本文为深度学习入门：基于Python的理论与实现的学习笔记，由于笔者已有matalb、c\c++，java相关语言基础，故只记录不同之处需要注意的地方，供给有其他有语言基础，没学过…

Python 2023年8月31日
0069
【学习笔记】Tensorflow和numpy中argmax()函数的使用和区别

np.argmax(a, axis=None, out=None) tf.argmax(input, axis=None, name=None, dimension=None, o…

Python 2023年8月25日
0043
面向对象的特点

面向对象的特点封装什么是封装？封装表面意思就是封锁和包装；把信息进行隐藏起来；是指利用抽象数据类型将数据和基于数据的操作封装在一起，使其构成一个不可分割的独立实体，数据被…

Python 2023年10月19日
0035
详解YOLOv5中的Bottleneck

深度学习入门小菜鸟，希望像做笔记记录自己学的东西，也希望能帮助到同样入门的人，更希望大佬们帮忙纠错啦~侵权立删。目录一、背景知识 — 残差结构二、Bottlene…

Python 2023年9月27日
0062
外包四年太差劲，幡然醒悟要跳槽

前几天有个读者过来说，”二哥，外包干了四年，感觉和外界差距有点大，现在被动醒悟，希望你能帮我制定一下学习路线。” 那二哥这么负责任，必须得承担起这份职责啊…

Python 2023年10月7日
0045
Nginx截断uwsgi+Django(Flask)大响应体的问题及解决

目录症状找到关键原因解决解决2 解决3 推演症状可以看到这个页面已经结束了，但底部的保存按钮不见了。正常的Django Admin管理后台商品编辑界面，下面有一排操作按…

Python 2023年8月6日
0088
【Java寒假打卡】JavaWeb-Session

【Java寒假打卡】JavaWeb-Session * – 概述 – 常用的方法 – HttpSession的获取 – HttpSe…

Python 2023年11月8日
0037
数据可视化 —— 泰坦尼克任务

第二章：数据可视化开始之前，导入numpy、pandas以及matplotlib包和数据 import numpy as np import pandas as pd impor…

Python 2023年9月5日
0061
K-means聚类算法原理及python具体实现

文章目录 1 快速理解 * 1.1 算法步骤 1.2 一个例子 2 K-means步骤详解 * 2.1 K值的选择 2.2 距离度量 2.3 新质心的计算 2.4 停止条件 3 K…

Python 2023年8月1日
0070
2022.11.25 flask项目开发截止日期计算器

1.项目介绍：1.截止日期计算器功能： 1.输入截止日期和活动名称，点击提交，自动计算距离结束时间还有多久 2.保存并显示计算的活动 3.清除保存的数据 2.static文件夹保存…

Python 2023年8月14日
0040
pygame怎么让背景图片和窗口一样大小_什么是投标总价？投标总价大小写不一样怎么办？…

招投标是一项基本建设领域的国家规定，目的作用不再细说，反正是为了国家好百姓好，我们在进行招投标的时候，经常会听到投标总价这个词，大家真的了解这个词的含义吗？今天小编就给大家讲讲什么…

Python 2023年9月25日
0051
Pytest框架 — 06、Pytest的Fixture（部分前后置）(一)

1、前言 2、Fixture的优势 3、Fixture的定义与调用（1）定义方法（2）参数简要说明（3）调用方法 1、前言 fixture中文名翻译为夹具，作用与上一篇中 s…

Python 2023年5月23日
0082

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

python能处理csv文件吗_python处理csv文件非常慢

大家都在看