文章目录
- Python海量数据的生成与处理
* - 概述
- 生成1亿条数据
– - 生成10亿条数据
–
Python海量数据的生成与处理
参考:https://blog.csdn.net/quicktest/article/details/7453189
概述
生成1亿条数据
代码如下:
def generateRandom(rangeFrom, rangeTo):
import random
return random.randint(rangeFrom,rangeTo)
def generageMassiveIPAddr(fileLocation,numberOfLines):
IP = []
file_handler = open(fileLocation, 'a+')
for i in range(numberOfLines):
IP.append('10.197.' + str(generateRandom(0,255))+'.'+ str(generateRandom(0,255)) + '\n')
file_handler.writelines(IP)
file_handler.close()
if __name__ == '__main__':
from time import ctime
print(ctime())
for i in range(10):
print( ' ' + str(i) + ": " + ctime())
generageMassiveIPAddr('d:\\massiveIP.txt', 10000000)
print(ctime())
程序输出如下:
Thu Dec 30 13:01:34 2021
0: Thu Dec 30 13:01:34 2021
1: Thu Dec 30 13:02:12 2021
2: Thu Dec 30 13:02:50 2021
3: Thu Dec 30 13:03:28 2021
4: Thu Dec 30 13:04:07 2021
5: Thu Dec 30 13:04:45 2021
6: Thu Dec 30 13:05:25 2021
7: Thu Dec 30 13:06:07 2021
8: Thu Dec 30 13:06:46 2021
9: Thu Dec 30 13:07:25 2021
Thu Dec 30 13:08:04 2021
可以看出,每1千万条数据需要40s左右,1亿条一共耗时6min30s,一共330s。
生成的文件大小为:
1.4GB
直接读取测试
加载数据
代码如下:
import pandas as pd
from time import ctime
print(ctime())
df = pd.read_csv("d:\\massiveIP.txt",header=None,names=["IP"])
print(ctime())
用时 29s,输出如下:
Thu Dec 30 13:20:24 2021
Thu Dec 30 13:20:53 2021
查看占用内存大小:
df.info()
输出如下:
`python
RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):
Original: https://blog.csdn.net/m0_38139250/article/details/122234373
Author: IT从业者张某某
Title: Python海量数据的生成与处理
原创文章受到原创版权保护。转载请注明出处:https://www.johngo689.com/674711/
转载文章受原作者版权保护。转载请注明原作者出处!