numpy的并行多进程处理

2023年8月26日上午11:29 • Python • 阅读 63

因为要处理接近32G+数据集，为提高处理效率，没有使用数据库，直接在大内存的机器上用了numpy。

对数据集还要做一些计算，包含逻辑工作流，不能简单向量化。又想进一步提高处理速度，就需要并行化。

关于numpy的ndarray的并行化处理，已经又前人研究过，使用multiprocessing.shared_memory 模块。比较优秀的有：Python多进程处理（读、写）numpy矩阵

这里作一些补充。

1、在Windows系统中（win10 64位），RawArray进入子进程后，会出现”mmap.mmap(-1,…) … OSError: [WinError 1450] 系统资源不足，无法完成请求的服务”的错误，也有可能是” OSError: [WinError 1455] 页面文件太小，无法完成操作”的错误。

虽然在任务管理器中，明显看到实际分配的RawArray还远小于实际内存的容量，但是还是报错。这个问题在linux中不会发生。

解决办法是设置Windows的虚拟内存为固定值，固定值只管放大到比实际内存大，甚至可以到2倍，而且不必放到SSD中，放到机械硬盘里都行。程序实际运行中，可以看到硬盘是不工作的。

在程序运行结束时，还要注意主动 del RawArray，回收一下内存。否则下一次运行时，Windows还可能会报”[WinError 1455] 页面文件太小”的错误。

2、numpy的向量化加速问题。Anaconda Python的numpy是按intel MKL配置加速的，理论上是有向量加速的。但是经过测试，多进程并行处理，还是比单进程要快，所以可以认为intel MKL的向量加速只是基于单核的，如有必要，还是可以把单个numpy.ndarray进行分块，进行并行处理提速。

3、共享的RawArray的并行处理，还是建议使用multiprocessing.Processing，而不要用multiprocessing.Pool。因为前者的父子进程具有继承性，参数传递上无需global化，比较方便。

附上演示代码

-*- coding: utf-8 -*-
from __future__ import absolute_import, print_function

import multiprocessing
import os, sys, time, gc, psutil
import time
import numpy
import multiprocessing.managers
import multiprocessing.sharedctypes

def multi_run (func, imapS, *args):
    # 类似 pool，但是可以形成 子进程 的继承关系，方便传递 共享内存变量
    print ("len(imapS) ", len(imapS))
    ProcS = []
    for s in imapS:
        p = multiprocessing.Process(target=func,args=(s, *args))
        p.daemon = True
        p.start()
        print ("start .. ", psutil.virtual_memory().used)
        ProcS.append (p)

    for p in ProcS:
        p.join()

def Split_List (mList, mSplit):
    # 把一个大 list 基本平均切分成 多份，用于后续的 mulitprocessing 处理
    mp_Length = len(mList)
    step = mp_Length / mSplit # 每份的长度
    if step < 1:
        step = 1
    elif step != int(step):
        step = int(step) + 1
        # 取整后再加1的目的是，不要把前面n个进程余下来的任务，都压倒最后一个进程上
        # 相反，是取最后一个进程工作量不足的，分担到前面的进程中去
    ret = []
    c = 0
    while c < mp_Length :
        ret.append (mList[c: c + step])
        c += step
    return ret

def write_m (mrange, gm, gmp_Count, gstatic_C, static_LL):
    m = numpy.frombuffer(gm, dtype=numpy.uint8)
    m = numpy.reshape (m, (gmp_Count*gstatic_C , static_LL))
    for i in mrange:
        m[i,:] = i+1

def calc_m (mrange, gm, gmp_Count, gstatic_C, static_LL):
    m = numpy.frombuffer(gm, dtype=numpy.uint8)
    m = numpy.reshape (m, (gmp_Count*gstatic_C , static_LL))
    m[mrange,:] = numpy.exp (m[mrange,:])

if __name__ == "__main__":
    multiprocessing.freeze_support()
    mp_Count = multiprocessing.cpu_count()
    # 以下两个参数可根据运行的机器的实际内存容量进行调整，目前参数值适合于32G内存机器
    static_C = 2
    static_LL = 1024 *1024* 512

    raw_arr_m = multiprocessing.sharedctypes.RawArray( \
        numpy.ctypeslib.as_ctypes_type(numpy.uint8), \
        mp_Count*static_C *static_LL)
    m = numpy.frombuffer(raw_arr_m, dtype=numpy.uint8)
    m = numpy.reshape (m, (mp_Count*static_C , static_LL))
    print ("Get Memory .. ", m.shape, psutil.virtual_memory().used)

    for i in range(mp_Count):
        print (i*static_C, m[i*static_C, :10])

    sp = Split_List(list(range(mp_Count*static_C)), mp_Count)
    multi_run (write_m, sp, raw_arr_m, mp_Count, static_C, static_LL)

    print ("calc Start .")
    t0 = time.time()
    m = numpy.exp (m)
    print ("single", time.time() - t0)

    sp = Split_List(list(range(mp_Count*static_C)), mp_Count)
    multi_run (write_m, sp, raw_arr_m, mp_Count, static_C, static_LL)
    t0 = time.time()
    multi_run (calc_m, sp, raw_arr_m, mp_Count, static_C, static_LL)
    print ("multi", time.time() - t0)

    for i in range(m.shape[0]):
        print (i, m[i, :10])
    del raw_arr_m
    gc.collect()

如果处理过程比较简单，使用的 numpy函数能被 numba 模块，则用 numba 更为简便，无需操作共享内存，即能实现numpy 的并行化计算。比起 numpy.vectorize ，或则 numpy.fromfunction 更为便利。当然 numba 还是有不少限制，有些函数虽然支持，但是参数限制性比原生的 numpy 要范围小得多，前面的办法相对”万能”使用。

对于参数限制了的numpy函数，也可以自行进行算法展开进行弥补。由于 numba 是实时”编译”后执行，在代码量较大的情况下，特别是使用了njit(parallel=True)参数后，即nopython方式，速度还是传统较快得多。在另一个复杂的算例（代码不便贴出），可以比共享内存的并行方式快上一倍。

numba 的示例代码如下

-*- coding: utf-8 -*-
from __future__ import absolute_import, print_function

import multiprocessing
import os, sys, time, gc, psutil
import time
import numpy
import numba
from numba.typed import List

@numba.njit
def write_m (mrange, m):
    for i in mrange:
        m[i,:] = i+1

@numba.njit
def calc_m (mrange, m):
    for i in mrange:
        m[i,:] = numpy.exp (m[i,:]).astype(numpy.uint8)

if __name__ == "__main__":
    multiprocessing.freeze_support()
    mp_Count = multiprocessing.cpu_count()
    # 以下两个参数可根据运行的机器的实际内存容量进行调整，目前参数值适合于32G内存机器
    static_C = 2
    static_LL = 1024 *1024* 512

    m = numpy.empty((mp_Count*static_C , static_LL), dtype=numpy.uint8)
    print ("Get Memory .. ", m.shape, psutil.virtual_memory().used)

    for i in range(mp_Count):
        print (i*static_C, m[i*static_C, :10])

    write_m (List(range(mp_Count*static_C)), m)

    print ("calc Start .")

    t0 = time.time()
    m = numpy.exp (m).astype(numpy.uint8)
    print ("single", time.time() - t0)

    write_m (List(range(mp_Count*static_C)), m)

    t0 = time.time()
    calc_m (List(range(mp_Count*static_C)), m)
    print ("multi", time.time() - t0)

    for i in range(m.shape[0]):
        print (i, m[i, :10])

Original: https://blog.csdn.net/makefool/article/details/121185054
Author: makefool
Title: numpy的并行多进程处理

原创文章受到原创版权保护。转载请注明出处：https://www.johngo689.com/760174/

转载文章受原作者版权保护。转载请注明原作者出处！

python

【自取】最近整理的，有需要可以领取学习：

Linux核心资料大放送~

全栈面试题汇总（持续更新&可下载）

一个提高学习100%效率的工具！

【超详细】深度学习面试题目！

LeetCode Python刷题答案下载！

LeetCode Java版刷题答案下载！

LeetCode C++ 版本，抓紧保存！

LeetCode GO语言刷题答案下载！

pycharm：远程连接服务器调试代码(保姆级详细步骤)

一、为什么要远程连接服务器？用笔记本的CPU去跑深度学习的模型，特别是计算机视觉方向，是一件不切实际的事情，所以我们大多数人的做法是—-在本地写好代码，然后上传到服务…

Python 2023年8月2日
0067
对抗攻击方法一览

神经网络在过去的几年和几十年已经获得了长足的进步，神经网络的应用已经遍布我们生活的各个角落。但是与此同时，也有人发现神经网络并不像我们预期的那么具有鲁棒性，仅仅在图片中添加一个微笑…

Python 2023年10月28日
0026
Diazo Biotin-PEG3-DBCO,二苯并环辛炔PEG3重氮生物素,无铜 Click Chemistry

Diazo Biotin-PEG3-DBCO反应原理： Diazo Biotin-PEG3-DBCO 是一种点击化学标记生物素，可通过无铜 Click Chemistry 与叠氮化…

Python 2023年11月5日
0046
一文看懂如何用 Python 查看三维数据 (nii.gz格式) 的各种图像参数

Python 如何读取CT/MRI数据的大小，值范围，层厚，分辨率等信息一文看懂如何用 Python 查看三维数据(nii.gz格式)的各种图像参数编程环境： jupyter …

Python 2023年8月28日
00156
集合(set)

4.6 集合(set) 集合是由非重复元素组成的无序容器。集合中的元素不能重复，即使将相同的元素添加到集合中，也只保留一个元素。由于集合的这一性质，通常可以使用该集合来删除重复项。…

Python 2023年5月23日
0076
第3关：Numpy迭代数组

任务描述本关任务：利用本关相关知识，将一个ndarray类型的数组，顺时针旋转90度后输出。相关知识NumPy迭代器对象numpy.nditer提供了一种灵活访问一个或者多个数组元…

Python 2023年8月29日
0051
Selenium4+Python3系列（十一） – Page Factory设计模式

Page Object模式，目的是将元素定位和元素操作分层，只接触测试内容，不写基础内容，便于后续对自动化测试用例体系的维护，这是中心思想，也是核心。那么我们继续将 &…

Python 2023年10月13日
0032
如何从DataFrame中选择一列数据

查看数据 import pandas as pd movie= pd.read_csv(‘movie.csv’) movie.head() RankTitleGenreDescri…

Python 2023年8月21日
0082
【opencv之python版】图像的读取、显示、保存、像素遍历以及结合matplotlib使用

文章目录 1. 图像的表示 2. 图像读取、显示与保存 3. 简单使用 * 3.1 读取图像大小 3.2 绘制基本图形 3.3 图像的元素遍历 4. 结合Matplotlib显示图…

Python 2023年9月3日
0050
U盘格式化后能恢复数据吗？U盘删除的数据还能恢复吗

U盘格式化后能恢复数据吗？通常情况下，我们U盘里的数据丢失后，它们并没有立即消失，它们只是被系统做了一个标记，将数据存储的位置标记成可写入的状态，只有当新数据写入的时候，这个存储位…

Python 2023年10月10日
0061
Python ❀ 打印空心三角形

Python ❀ 打印空心三角形原创无糖可乐没有灵魂2022-06-24 19:20:40博主文章分类：Python ©著作权文章标签 Python 文章分类 Python …

Python 2023年5月25日
00123
Python库积累之pandasql：在 Python 中对Dataframe使用 SQL

Pandasql简介 Pandasql是一个可以让我们直接在Python中对Dataframe进行SQL查询的库。 Python中虽然内置有sqlite数据库，但是如果我们使用sq…

Python 2023年8月19日
0064
PysparkNote102—DataFrame常用操作2

https://zhuanlan.zhihu.com/p/34901683 满足以下功能: 1.1 重复行 from pyspark.sql import SparkSession…

Python 2023年8月19日
0065
JetBrains Fleet初体验，如何运行一个java项目

序言各位好啊，我是会编程的蜗牛，JetBrains 日前宣布其打造的下一代 IDE Fleet 正式推出公共预览版，现已开放下载。作为java开发者，对于JetBrains开发的…

Python 2023年10月18日
0072
series选取值_pandas中dataFrame的取值和计算操作

dataFrame中的值以矩阵的形式存在，在访问值时需要带上行索引或者列索引。 1、dataFrame简单的取值方法 import pandas as pd def createD…

Python 2023年8月6日
0036
知识图谱现学现用（Django 2.2 + Neo4j 3.5）

最近公司想要开发一款有关知识图谱的构建工具，以前没有接触过neo4j的我只能现学现用。闲话少说，只撸干货😎。一、Neo4j图数据库搭建 1.1 Neo4j概述 Neo4j是一个高…

Python 2023年8月5日
0097

2024 年 5 月
一	二	三	四	五	六	日
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

numpy的并行多进程处理

大家都在看