Python计算大文件行数方法及性能比较

2023年6月3日上午8:09 • Python • 阅读 58

如何使用Python快速高效地统计出大文件的总行数, 下面是一些实现方法和性能的比较。

1.readline读所有行
使用 readlines方法读取所有行:

def readline_count(file_name):
    return len(open(file_name).readlines())

2.依次读取每行
依次读取文件每行内容进行计数:

def simple_count(file_name):
    lines = 0
    for _ in open(file_name):
        lines += 1
    return lines

3.sum计数
使用 sum函数计数:

def sum_count(file_name):
    return sum(1 for _ in open(file_name))

4.enumerate枚举计数:

def enumerate_count(file_name):
    with open(file_name) as f:
        for count, _ in enumerate(f, 1):
            pass
    return count

5.buff count
每次读取固定大小,然后统计行数:

def buff_count(file_name):
    with open(file_name, 'rb') as f:
        count = 0
        buf_size = 1024 * 1024
        buf = f.read(buf_size)
        while buf:
            count += buf.count(b'\n')
            buf = f.read(buf_size)
        return count

6.wc count
调用使用 wc命令计算行:

def wc_count(file_name):
    import subprocess
    out = subprocess.getoutput("wc -l %s" % file_name)
    return int(out.split()[0])

7.partial count
在buff_count基础上引入 partial:

def partial_count(file_name):
    from functools import partial
    buffer = 1024 * 1024
    with open(file_name) as f:
        return sum(x.count('\n') for x in iter(partial(f.read, buffer), ''))

8.iter count
在buff_count基础上引入 itertools模块 :

def iter_count(file_name):
    from itertools import (takewhile, repeat)
    buffer = 1024 * 1024
    with open(file_name) as f:
        buf_gen = takewhile(lambda x: x, (f.read(buffer) for _ in repeat(None)))
        return sum(buf.count('\n') for buf in buf_gen)

下面是在我本机 4c8g python3.6的环境下,分别测试100m、500m、1g、10g大小文件运行的时间，单位秒：

方法 100M 500M 1G 10G readline_count 0.25 1.82 3.27 45.04 simple_count 0.13 0.85 1.58 13.53 sum_count 0.15 0.77 1.59 14.07 enumerate_count 0.15 0.80 1.60 13.37 buff_count 0.13 0.62 1.18 10.21 wc_count 0.09 0.53 0.99 9.47 partial_count 0.12 0.55 1.11 8.92 iter_count 0.08 0.42 0.83 8.33

Original: https://www.cnblogs.com/jhao/p/13488867.html
Author: j_hao104
Title: Python计算大文件行数方法及性能比较

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/563984/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

Pandas知识点-Series数据结构介绍

Pandas知识点-Series数据结构介绍本文用到的数据来源于网易财经，具体下载方式可以参考上一篇文章：https://blog.csdn.net/weixin_4379027…

Python 2023年8月17日
0056
Matplotlib进阶教程：工具包

在后台回复【阅读书籍】即可获取python相关电子书~ Hi，我是山月。今天来给大家介绍下Matplotlib系列的最后一篇教程：三个工具包的介绍。今天的课程结束后，这个系列…

Python 2023年9月5日
0049
python合并两个数据框_如何在python pandas中合并2个复杂的数据框？

我有2个熊猫数据帧. dictionary1 = {‘match_up’ : [‘1985_1116_1234’ , ‘…

Python 2023年8月21日
0048
[LINUX] 像电影里的黑客一样用 terminal 作为日常开发

1、效果预览 2、具体实现 2.1 定位鼠标位置 2.2 获取屏幕位置 2.3 计算鼠标在哪个窗口 2.4 1920×1080 平铺效果设计 2.5 1280×…

Python 2023年6月16日
0070
pytest-logging使用

– – coding: utf-8 –– import loggingimport osimport sys import time…

Python 2023年9月10日
0053
【自考】数据结构第四章树和二叉树，期末不挂科指南，第6篇

章节简介前5篇博客写的都是线性结构，对于有层级结构的数据需要用树形结构来描述本章的重要知识点理解有关树的基本概念和二叉树的基本概念掌握二叉树的存储结构以及遍历方法掌握树的…

Python 2023年6月3日
0082
pytest+allure生成测试报告

pytest+allure生成测试报告 1、安装allure-pytest 在pycharm中创建allure-test项目settings -> Project：allur…

Python 2023年9月10日
0050
Unity3d C#开发WebGL平台转微信小游戏保姆级教程（喜大普奔）

广告通过一段时间的基于minigame-unity-webgl-transform插件的开发，算是稍微完整的一小个游戏已经制作完成，具体大家可以扫码体验一下：感谢支持！！ ; …

Python 2023年11月5日
0064
撸了一个简易的配置中心，顺带整合到了SpringCloud

大家好，我是三友~~ 最近突然心血来潮（就是闲的）就想着撸一个简单的配置中心，顺便也照葫芦画瓢给整合到SpringCloud。本文大纲配置中心的概述随着历史的车轮不断的前进，…

Python 2023年10月19日
0029
python bar图百分比_如何将条形图值更改为百分比（Matplotlib）

下面的代码生成一个条形图，每个条形图上方都有数据标签(如下图所示)。有没有办法把y轴上的刻度变成百分比(在这个图表中，是0%，20%，等等)？我通过将条高与”%&#8…

Python 2023年9月4日
0051
世界杯太精彩了，带大家用Python做个足球游戏，边玩游戏边看比赛

文章目录 Python零基础快速制作足球游戏（附源代码）前言一、Python环境说明二、游戏程序说明 1、游戏开始界面 2、人物移动规则说明，可支持两位玩家 3、足球规则 4…

Python 2023年11月6日
0023
sklearn交叉验证函数cross_val_score用法及参数解释

文章目录一、使用示例二、参数含义三、常见的scoring取值 * 1.分类、回归和聚类scoring参数选择 2.f1_micro和f1_macro区别 3.负均方误差和均…

Python 2023年8月1日
0044
Django初识（6.常用视图之CreateView）

在之前Django初识（3.常用视图之ListView视图）中我们提到了有五大常用视图，其中要实现增这样一个操作会用到CreateView视图，表格中还提到使用CreateView…

Python 2023年8月5日
0077
【Linux】进程间通信(万字详解) —— 下篇

🎇Linux：博客主页：一起去看日落吗分享博主的在Linux中学习到的知识和遇到的问题 博主的&#x…

Python 2023年11月5日
0037
问卷星去除微信登录弹窗

今天有场问卷答题，想在电脑网页上查看题目，但被弹窗阻止一般逻辑是把弹窗元素去除，但背景文字还是模糊的看不清，所以进阶操作是查看网页js代码通过查看js代码发现了关键内容我们紧…

Python 2023年6月11日
00233
宇宙物演进程——外星人去哪了游戏代码（Python实现）

目录 1 为什么找不见外星人 2 关于宇宙 3 宇宙物演进程 4 游戏外星人入侵展示 5 Python代码实现 1 为什么找不见外星人为什么我们见不到外星人？曾经在物理学上有一个…

Python 2023年9月20日
0034

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python计算大文件行数方法及性能比较

大家都在看