Python海量数据的生成与处理

文章目录

Python海量数据的生成与处理

参考:https://blog.csdn.net/quicktest/article/details/7453189

概述

生成1亿条数据

代码如下:


def generateRandom(rangeFrom, rangeTo):
    import random
    return random.randint(rangeFrom,rangeTo)

def generageMassiveIPAddr(fileLocation,numberOfLines):
    IP = []
    file_handler = open(fileLocation, 'a+')
    for i in range(numberOfLines):
        IP.append('10.197.' + str(generateRandom(0,255))+'.'+ str(generateRandom(0,255)) + '\n')

    file_handler.writelines(IP)
    file_handler.close()

if __name__ == '__main__':
    from time import ctime
    print(ctime())
    for i in range(10):
        print( '  ' + str(i) + ": " + ctime())
        generageMassiveIPAddr('d:\\massiveIP.txt', 10000000)
    print(ctime())

程序输出如下:

Thu Dec 30 13:01:34 2021
  0: Thu Dec 30 13:01:34 2021
  1: Thu Dec 30 13:02:12 2021
  2: Thu Dec 30 13:02:50 2021
  3: Thu Dec 30 13:03:28 2021
  4: Thu Dec 30 13:04:07 2021
  5: Thu Dec 30 13:04:45 2021
  6: Thu Dec 30 13:05:25 2021
  7: Thu Dec 30 13:06:07 2021
  8: Thu Dec 30 13:06:46 2021
  9: Thu Dec 30 13:07:25 2021
Thu Dec 30 13:08:04 2021

可以看出,每1千万条数据需要40s左右,1亿条一共耗时6min30s,一共330s。
生成的文件大小为:
1.4GB

Python海量数据的生成与处理

直接读取测试

加载数据

代码如下:

import pandas as pd
from time import ctime
print(ctime())
df = pd.read_csv("d:\\massiveIP.txt",header=None,names=["IP"])
print(ctime())

用时 29s,输出如下:

Thu Dec 30 13:20:24 2021
Thu Dec 30 13:20:53 2021

查看占用内存大小:

df.info()

输出如下:

`python


RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):

Original: https://blog.csdn.net/m0_38139250/article/details/122234373
Author: IT从业者张某某
Title: Python海量数据的生成与处理

原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/674711/

转载文章受原作者版权保护。转载请注明原作者出处!

(0)

大家都在看

亲爱的 Coder【最近整理,可免费获取】👉 最新必读书单  | 👏 面试题下载  | 🌎 免费的AI知识星球