Python大数据为啥一定要用Numpy Array

2023年8月11日上午7:29 • Python • 阅读 46

Numpy 是Python科学计算的一个核心模块。它提供了非常高效的数组对象，以及用于处理这些数组对象的工具。一个Numpy数组由许多值组成，所有值的类型是相同的。

Python的核心库提供了 List 列表。列表是最常见的Python数据类型之一，它可以调整大小并且包含不同类型的元素，非常方便。

那么List和Numpy Array到底有什么区别？为什么我们需要在大数据处理的时候使用Numpy Array？答案是性能。

Numpy数据结构在以下方面表现更好：

1.内存大小—Numpy数据结构占用的内存更小。

2.性能—Numpy底层是用C语言实现的，比列表更快。

3.运算方法—内置优化了代数运算等方法。

下面分别讲解在大数据处理时，Numpy数组相对于List的优势。

1.内存占用更小

适当地使用Numpy数组替代List，你能让你的内存占用降低20倍。

对于Python原生的List列表，由于每次新增对象，都需要8个字节来引用新对象，新的对象本身占28个字节（以整数为例）。所以列表 list 的大小可以用以下公式计算：

64 + 8 * len(lst) + len(lst) * 28 字节

而使用Numpy，就能减少非常多的空间占用。比如长度为n的Numpy整形Array，它需要：

96 + len(a) * 8 字节

可见，数组越大，你节省的内存空间越多。假设你的数组有10亿个元素，那么这个内存占用大小的差距会是GB级别的。

2.速度更快、内置计算方法

运行下面这个脚本，同样是生成某个维度的两个数组并相加，你就能看到原生List和Numpy Array的性能差距。

import time
import numpy as np
size_of_vec = 1000
def pure_python_version():
    t1 = time.time()
    X = range(size_of_vec)
    Y = range(size_of_vec)
    Z = [X[i] + Y[i] for i in range(len(X)) ]
    return time.time() - t1
def numpy_version():
    t1 = time.time()
    X = np.arange(size_of_vec)
    Y = np.arange(size_of_vec)
    Z = X + Y
    return time.time() - t1
t1 = pure_python_version()
t2 = numpy_version()
print(t1, t2)
print("Numpy is in this example " + str(t1/t2) + " faster!")

结果如下：

0.00048732757568359375 0.0002491474151611328
Numpy is in this example 1.955980861244019 faster!

可以看到，Numpy比原生数组快1.95倍。

如果你细心的话，还能发现，Numpy array可以直接执行加法操作。而原生的数组是做不到这点的，这就是Numpy 运算方法的优势。

我们再做几次重复试验，以证明这个性能优势是持久性的。

import numpy as np
from timeit import Timer
size_of_vec = 1000
X_list = range(size_of_vec)
Y_list = range(size_of_vec)
X = np.arange(size_of_vec)
Y = np.arange(size_of_vec)
def pure_python_version():
    Z = [X_list[i] + Y_list[i] for i in range(len(X_list)) ]
def numpy_version():
    Z = X + Y
timer_obj1 = Timer("pure_python_version()",
                   "from __main__ import pure_python_version")
timer_obj2 = Timer("numpy_version()",
                   "from __main__ import numpy_version")
print(timer_obj1.timeit(10))
print(timer_obj2.timeit(10)) # Runs Faster!

print(timer_obj1.repeat(repeat=3, number=10))
print(timer_obj2.repeat(repeat=3, number=10)) # repeat to prove it!

结果如下：

0.0029753120616078377
0.00014940369874238968
[0.002683573868125677, 0.002754641231149435, 0.002803879790008068]
[6.536301225423813e-05, 2.9387418180704117e-05, 2.9171351343393326e-05]

可以看到，第二个输出的时间总是小得多，这就证明了这个性能优势是具有持久性的。

所以，如果你在做一些大数据研究，比如金融数据、股票数据的研究，使用Numpy能够节省你不少内存空间，并拥有更强大的性能。

我们的文章到此就结束啦，如果你喜欢今天的Python 实战教程，请持续关注我们。

Original: https://blog.csdn.net/m0_54214980/article/details/123001455
Author: IT界搬运喵
Title: Python大数据为啥一定要用Numpy Array

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/746329/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

如何在工作中提高pandas运行速率？【超实用方法整理】

大家早上好，本人姓吴，如果觉得文章写得还行的话也可以叫我吴老师。欢迎大家跟我一起走进数据分析的世界，一起学习！感兴趣的朋友可以关注我的数据分析专栏，里面有许多优质的文章跟大家分享哦…

Python 2023年8月20日
0052
wsl2实现centos8安装、配置及解决命令缺失

一、安装子系统 1. 启动虚拟机功能 dism.exe /online /enable-feature /featurename:Microsoft-Windows-Subsyst…

Python 2023年6月10日
0076
Python 中的鸭子类型和猴子补丁

大家好，我是老王。 Python 开发者可能都听说过鸭子类型和猴子补丁这两个词，即使没听过，也大概率写过相关的代码，只不过并不了解其背后的技术要点是这两个词而已。我最近在面试…

Python 2023年11月3日
0043
SSD训练数据集流程（学习记录）

关于理论部分我看的是b站”霹雳吧啦Wz”的SSD理论讲解，作为入门小白表示能听懂，需要的同学可以自行观看目录 1.训练环境 2.训练步骤 1.训练环境我…

Python 2023年9月28日
0063
今日内容批量操作数据，分页器使用 form与modelform组件

*批量操作数据使用create创建大量数据： 涉及到大批&#…

Python 2023年6月12日
0071
c++ 加载pkl模型_小白Bert系列-生成pb模型，tfserving加载，flask进行预测

bert分类模型使用tfserving部署。 bert模型服务化现在已经有对应开源库部署。例如：1.https://github.com/macanv/BERT-BiLSTM-C…

Python 2023年8月14日
0054
conda install 和 pip install的区别

一.范围不同二.使用条件不同三.对虚拟环境的管理能力不同四.可使用包的数量不同 conda和pip一般被认为是几乎相同的，但这两个工具虽然功能存在部分重叠，但其设计的目的是不…

Python 2023年9月7日
0052
Python中，什么是鸭子类型(duck typing)🦆

什么是鸭子类型(duck typing)🦆 描述当看到一只鸟走起来像鸭子、游泳起来像鸭子、叫起来也像鸭子，那么这只鸟就可以被称为鸭子🦆。” 特性关注点在对象的行为或…

Python 2023年6月12日
0066
学完 Python，我需要编个游戏露两手

“人生苦短，我用 Python”。这句戏言真实反映了 Python 语言的江湖地位。那么，要快速上手和进阶 Python 编程，有什么好途径呢？我推荐…

Python 2023年9月25日
0042
优雅的写好Vue项目代码 — 路由拆分、Vuex模块拆分、element按需加载

路由的拆分项目较大路由较多时，路由拆分是一个不错的代码优化方案，按不同业务分为多个模块，结构清晰便于统一管理。 require.context() 是webpack提供的语法， …

Python 2023年10月16日
0034
Django根据已有数据库表生成模型

setting.py文件中配置默认连接的数据 DATABASES = { "default" : { "ENGINE":"djan…

Python 2023年8月5日
0059
OpenCV之 BGR、GRAY、HSV色彩空间&色彩通道专题【Open_CV系列（三）】

文章目录 1.色彩空间 * 1.1 BGR色彩空间 1.2 GRAY色彩空间 1.3 HSV色彩空间 1.4 空间转换 – 1.4.1 BGR 转 GRAY 1.4.2…

Python 2023年9月28日
0053
Python中时间处理

datetime主要包含以下几个内容 1、日期对象 date：常用的属性有year, month, day 方法：（1）a = datetime.day.today()：返回当前…

Python 2023年6月12日
0079
python保存数据方式（npy, pkl, h5, pt, npz）

利用python保存数据方式 1 numpy中npy文件保存和读取利用numpy库重要保存array数据， import numpy as np data = np.zeros(…

Python 2023年8月23日
00123
Python学习：构造函数与析构函数

__init__(self)，这个方法就是构造函数，在实例化的时候自动调用。所有如果这个函数内有打印的方法，当实例出来的时候会打印里面的信息。有了 __init__方法，在创…

Python 2023年10月31日
0033
安装scrapy模块，创建一个Scrapy爬虫项目，并运行

创建一个Scrapy项目，首先需要所需要的模块一丶安装scrapy框架所有模块1.第一个安装的依赖库是lxml ,命令是： pip install lxml 2.第二个依赖库是p…

Python 2023年10月2日
0041

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Python大数据为啥一定要用Numpy Array

1.内存占用更小

2.速度更快、内置计算方法

大家都在看