Python海量数据的生成与处理

2023年7月6日下午8:25 • 人工智能 • 阅读 64

文章目录

Python海量数据的生成与处理
*
概述
生成1亿条数据
–
生成10亿条数据
–

Python海量数据的生成与处理

参考：https://blog.csdn.net/quicktest/article/details/7453189

概述

生成1亿条数据

代码如下：


def generateRandom(rangeFrom, rangeTo):
    import random
    return random.randint(rangeFrom,rangeTo)

def generageMassiveIPAddr(fileLocation,numberOfLines):
    IP = []
    file_handler = open(fileLocation, 'a+')
    for i in range(numberOfLines):
        IP.append('10.197.' + str(generateRandom(0,255))+'.'+ str(generateRandom(0,255)) + '\n')

    file_handler.writelines(IP)
    file_handler.close()

if __name__ == '__main__':
    from time import ctime
    print(ctime())
    for i in range(10):
        print( '  ' + str(i) + ": " + ctime())
        generageMassiveIPAddr('d:\\massiveIP.txt', 10000000)
    print(ctime())

程序输出如下：

Thu Dec 30 13:01:34 2021
  0: Thu Dec 30 13:01:34 2021
  1: Thu Dec 30 13:02:12 2021
  2: Thu Dec 30 13:02:50 2021
  3: Thu Dec 30 13:03:28 2021
  4: Thu Dec 30 13:04:07 2021
  5: Thu Dec 30 13:04:45 2021
  6: Thu Dec 30 13:05:25 2021
  7: Thu Dec 30 13:06:07 2021
  8: Thu Dec 30 13:06:46 2021
  9: Thu Dec 30 13:07:25 2021
Thu Dec 30 13:08:04 2021

可以看出，每1千万条数据需要40s左右，1亿条一共耗时6min30s，一共330s。
生成的文件大小为：
1.4GB

直接读取测试

加载数据

代码如下：

import pandas as pd
from time import ctime
print(ctime())
df = pd.read_csv("d:\\massiveIP.txt",header=None,names=["IP"])
print(ctime())

用时 29s，输出如下：

Thu Dec 30 13:20:24 2021
Thu Dec 30 13:20:53 2021

查看占用内存大小：

df.info()

输出如下:

`python

RangeIndex: 100000000 entries, 0 to 99999999
Data columns (total 1 columns):

Original: https://blog.csdn.net/m0_38139250/article/details/122234373
Author: IT从业者张某某
Title: Python海量数据的生成与处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/674711/

转载文章受原作者版权保护。转载请注明原作者出处！

人工智能

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

AI 音辨世界：艺术小白的我，靠这个AI模型，速识音乐流派选择音乐

💡 作者：韩信子@ShowMeAI📘 数据分析实战系列：https://www.showmeai.tech/tutorials/40📘 机器学习实战系列：https://www.s…

人工智能 2023年6月11日
0090
多目标柔性车间调度丨NSGA-II:以算例MK01为例

车间调度系列文章： 1、车间调度的编码、解码，调度方案可视化的探讨 2、多目标优化:浅谈pareto寻优和非支配排序遗传算法-NSGAII的非支配排序及拥挤度 3、柔性车间调度问题…

人工智能 2023年6月24日
0084
考研英语 – 句子的结构 – 语法

句子的基本结构简单句的结构：主 – 谓 – 宾主 – 系 – *表其中，” 系” 是指由系动词构成的…

人工智能 2023年5月31日
0057
人脸检测 FaceDetection Python openCV

·`import cv2 def StaticDetect(filename):”’静态图像的人脸检测”’创建一个级联分类器，加载一…

人工智能 2023年7月10日
0078
jwt原理及使用

一、了解Session认证的局限性 Session认证机制需要配合Cookie才能实现。由于Cookie默认不支持跨域访问，所以当涉及到前端跨域请求后端接口的时候，需要做很多额外的…

人工智能 2023年6月28日
0080
如何对Tensor对象进行统计计算（如求平均值、求和等）

如何对Tensor对象进行统计计算在深度学习中，Tensor（张量）是一种常用的数据结构，很多计算都是基于Tensor进行的。本文将介绍如何对Tensor对象进行统计计算，包括求…

人工智能 2024年1月1日
00124
数字机器人如何赋能政企领域？或许你能在这里找到答案

6月15日-16日，华为将于线上举办主题为”因聚而生，为你所能”的”华为伙伴暨开发者大会 2022″。合作伙伴和开发者作为技术创新…

人工智能 2023年6月4日
0091
ChatGpt——一款人工智能交互程序的初次体验（有了它的出现程序员真的会失业？）

Hello，大家好，我是小胡同学。今天小胡带大家体验体验当下爆火的人工智能AI程序ChatGpt让我们看看ChatGpt是不是传说中的万能的AI。 1.首先我们先进入ChatGPT…

人工智能 2023年7月31日
0052
Pytorch定义模型、修改模型、保存与读取模型保存

PyTorch的模型定义 1.1 PyTorch模型定义的方式 PyTorch中有三种模型定义方式，三种方式都是基于 nn.Module建立的，我们可以通过 Sequential，…

人工智能 2023年7月22日
0057
【数据挖掘】贝叶斯网络理论及Python实现

1.理论知识 1.1贝叶斯网络概述贝叶斯网络（Bayesian Network，BN）作为一种概率图模型（Probabilistic Graphical Model，PGD）…

人工智能 2023年7月18日
0051
【python-Unet】计算机视觉~舌象舌头图片分割~机器学习（三）

返回至系列文章导航博客 1 简介舌体分割是舌诊检测的基础，唯有做到准确分割舌体才能保证后续训练以及预测的准确性。此部分真正的任务是在用户上传的图像中准确寻找到属于舌头的像素点。舌…

人工智能 2023年7月4日
0092
【h5文件读取】h5文件读取——深度学习数据集常用

编码、base64、简单、易懂、编码、base64、简单、易懂、编码、base64、简单、易懂、编码、base64、简单、易懂、编码、base64、简单、易懂、编码、base64、…

人工智能 2023年7月5日
0081
vue-quill-editor富文本编辑器-扩展表格、图片调整大小

可以通过自定义的 toolbar 进行实现，具体步骤如下： 1. 安装 </p> <p><code>和</code></p&…

人工智能 2023年6月27日
0068
神经网络编程的34个案例,神经网络程序实例100篇

matlab神经网络43个案例分析第十七章基于SVM的信息粒化运行问题代码你修改过吗，没有修改过、用的又是原版的SVMLIM工具箱的话，运行应该是无错的，因为所有的案例代码都经过…

人工智能 2023年7月13日
0077
[深度学习论文笔记]使用多模态MR成像分割脑肿瘤的HNF-Netv2

HNF-Netv2 for Brain Tumor Segmentation using multi-modal MR Imaging 使用多模态MR成像分割脑肿瘤的HNF-Net…

人工智能 2023年5月28日
0070
Python dcm转jpg与jpg转dcm

DCM文件是一种医学影像文件，除了文件信息，还包含影像数据，即图像信息，只要能够提取到这个图像信息，就可以将其转换为如JPG等图片格式。在医学影像处理中，常用到MASK掩膜，即勾画…

人工智能 2023年6月27日
0070

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python海量数据的生成与处理

文章目录

概述

生成1亿条数据

直接读取测试

加载数据

查看占用内存大小：

大家都在看