多处理中的共享内存对象

123

假设我有一个很大的内存numpy数组，我有一个函数func将这个巨型数组作为输入（以及其他一些参数）。func具有不同参数的参数可以并行运行。例如：

def func(arr, param):
    # do stuff to arr, param

# build array arr

pool = Pool(processes = 6)
results = [pool.apply_async(func, [arr, param]) for param in all_params]
output = [res.get() for res in results]

如果我使用多处理库，那么该巨型数组将多次复制到不同的进程中。

有没有办法让不同的进程共享同一数组？该数组对象是只读的，永远不会被修改。

更复杂的是，如果arr不是数组，而是任意python对象，是否可以共享它？

[编辑]

我读了答案，但仍然有些困惑。由于fork（）是写时复制的，因此在python多处理库中生成新进程时，我们不应调用任何额外的开销。但是下面的代码表明存在巨大的开销：

from multiprocessing import Pool, Manager
import numpy as np; 
import time

def f(arr):
    return len(arr)

t = time.time()
arr = np.arange(10000000)
print "construct array = ", time.time() - t;


pool = Pool(processes = 6)

t = time.time()
res = pool.apply_async(f, [arr,])
res.get()
print "multiprocessing overhead = ", time.time() - t;

输出（顺便说一句，成本随着数组大小的增加而增加，所以我怀疑仍然存在与内存复制相关的开销）：

construct array =  0.0178790092468
multiprocessing overhead =  0.252444982529

如果我们不复制阵列，为什么会有这么大的开销？共享内存可以为我节省哪一部分？

— 仇杀队
source

共享的只读数据是否

— 弗朗西斯·阿维拉

您已经看过文档了吧？

— Lev Levitsky

@FrancisAvila有没有一种方法不仅可以共享数组，还可以共享任意python对象？

— 仇杀队2012年

1

@LevLevitsky我不得不问，有没有一种方法不仅可以共享数组，还可以共享任意python对象？

— 仇杀队2012年

2

这个答案很好地说明了为什么不能共享任意Python对象。

— Janne Karila

121

如果使用的操作系统使用写时复制fork()语义（如任何常见的unix），则只要不更改数据结构，所有子进程都可以使用它，而不会占用额外的内存。您将不必执行任何特殊操作（除非绝对确保您不更改该对象）。

您可以针对问题执行的最有效的操作是将数组打包为有效的数组结构（使用numpy或array），将其放置在共享内存中，将其包装为multiprocessing.Array，然后将其传递给函数。这个答案说明了如何做到这一点。

如果需要可写的共享库，则需要使用某种同步或锁定包装它。multiprocessing提供了两种方法来执行此操作：一种使用共享内存（适用于简单值，数组或ctypes）或Manager代理，其中一个进程持有该内存，而管理器则从其他进程（甚至是通过网络）仲裁对它的访问。

该Manager方法可用于任意Python对象，但会比使用共享内存的等效方法慢，因为需要对对象进行序列化/反序列化并在进程之间发送。

Python提供了许多并行处理库和方法。multiprocessing是一个出色且全面的库，但是如果您有特殊需要，也许其他方法中的一种可能更好。

— 弗朗西斯·阿维拉
source

25

请注意，在Python上fork（）实际上意味着在访问时进行复制（因为仅访问对象会更改其引用计数）。

— Fabio Zadrozny 2012年

3

@FabioZadrozny它会实际上复制整个对象，还是仅复制包含其引用计数的内存页？

— Zigg

5

AFAIK，仅内存页面包含引用计数（因此，每个对象访问时为4kb）。

— Fabio Zadrozny

1

@max使用闭包。给定的函数apply_async应该直接在范围内引用共享库，而不要通过其参数引用。

— 弗朗西斯·阿维拉

3

@FrancisAvila您如何使用闭包？您提供给apply_async的函数不应该是可挑选的吗？还是这仅仅是map_async限制？

— GermanK 2015年

17

我遇到了同样的问题，并编写了一个共享内存实用程序类来解决该问题。

我正在使用multiprocessing.RawArray（无锁），并且对数组的访问完全不同步（无锁），请注意不要自己动手。

通过该解决方案，我在四核i7上获得了大约3倍的加速。

代码如下：随时使用和改进它，请报告所有错误。

'''
Created on 14.05.2013

@author: martin
'''

import multiprocessing
import ctypes
import numpy as np

class SharedNumpyMemManagerError(Exception):
    pass

'''
Singleton Pattern
'''
class SharedNumpyMemManager:    

    _initSize = 1024

    _instance = None

    def __new__(cls, *args, **kwargs):
        if not cls._instance:
            cls._instance = super(SharedNumpyMemManager, cls).__new__(
                                cls, *args, **kwargs)
        return cls._instance        

    def __init__(self):
        self.lock = multiprocessing.Lock()
        self.cur = 0
        self.cnt = 0
        self.shared_arrays = [None] * SharedNumpyMemManager._initSize

    def __createArray(self, dimensions, ctype=ctypes.c_double):

        self.lock.acquire()

        # double size if necessary
        if (self.cnt >= len(self.shared_arrays)):
            self.shared_arrays = self.shared_arrays + [None] * len(self.shared_arrays)

        # next handle
        self.__getNextFreeHdl()        

        # create array in shared memory segment
        shared_array_base = multiprocessing.RawArray(ctype, np.prod(dimensions))

        # convert to numpy array vie ctypeslib
        self.shared_arrays[self.cur] = np.ctypeslib.as_array(shared_array_base)

        # do a reshape for correct dimensions            
        # Returns a masked array containing the same data, but with a new shape.
        # The result is a view on the original array
        self.shared_arrays[self.cur] = self.shared_arrays[self.cnt].reshape(dimensions)

        # update cnt
        self.cnt += 1

        self.lock.release()

        # return handle to the shared memory numpy array
        return self.cur

    def __getNextFreeHdl(self):
        orgCur = self.cur
        while self.shared_arrays[self.cur] is not None:
            self.cur = (self.cur + 1) % len(self.shared_arrays)
            if orgCur == self.cur:
                raise SharedNumpyMemManagerError('Max Number of Shared Numpy Arrays Exceeded!')

    def __freeArray(self, hdl):
        self.lock.acquire()
        # set reference to None
        if self.shared_arrays[hdl] is not None: # consider multiple calls to free
            self.shared_arrays[hdl] = None
            self.cnt -= 1
        self.lock.release()

    def __getArray(self, i):
        return self.shared_arrays[i]

    @staticmethod
    def getInstance():
        if not SharedNumpyMemManager._instance:
            SharedNumpyMemManager._instance = SharedNumpyMemManager()
        return SharedNumpyMemManager._instance

    @staticmethod
    def createArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__createArray(*args, **kwargs)

    @staticmethod
    def getArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__getArray(*args, **kwargs)

    @staticmethod    
    def freeArray(*args, **kwargs):
        return SharedNumpyMemManager.getInstance().__freeArray(*args, **kwargs)

# Init Singleton on module load
SharedNumpyMemManager.getInstance()

if __name__ == '__main__':

    import timeit

    N_PROC = 8
    INNER_LOOP = 10000
    N = 1000

    def propagate(t):
        i, shm_hdl, evidence = t
        a = SharedNumpyMemManager.getArray(shm_hdl)
        for j in range(INNER_LOOP):
            a[i] = i

    class Parallel_Dummy_PF:

        def __init__(self, N):
            self.N = N
            self.arrayHdl = SharedNumpyMemManager.createArray(self.N, ctype=ctypes.c_double)            
            self.pool = multiprocessing.Pool(processes=N_PROC)

        def update_par(self, evidence):
            self.pool.map(propagate, zip(range(self.N), [self.arrayHdl] * self.N, [evidence] * self.N))

        def update_seq(self, evidence):
            for i in range(self.N):
                propagate((i, self.arrayHdl, evidence))

        def getArray(self):
            return SharedNumpyMemManager.getArray(self.arrayHdl)

    def parallelExec():
        pf = Parallel_Dummy_PF(N)
        print(pf.getArray())
        pf.update_par(5)
        print(pf.getArray())

    def sequentialExec():
        pf = Parallel_Dummy_PF(N)
        print(pf.getArray())
        pf.update_seq(5)
        print(pf.getArray())

    t1 = timeit.Timer("sequentialExec()", "from __main__ import sequentialExec")
    t2 = timeit.Timer("parallelExec()", "from __main__ import parallelExec")

    print("Sequential: ", t1.timeit(number=1))    
    print("Parallel: ", t2.timeit(number=1))

— 马丁·普林福克
source

刚刚意识到，在创建多处理池之前，必须先设置共享内存阵列，不知道为什么，但是绝对不能正常工作。

— martin.preinfalk 2013年

原因是当实例化Pool时，Multiprocessing pool会调用fork（），因此之后的任何内容都无法访问指向随后创建的任何共享mem的指针。

— 2015年

当我在py35下尝试此代码时，在multiprocessing.sharedctypes.py中出现异常，因此我猜想此代码仅适用于py2。

— 希里尔·丹尼尔（HillierDániel）博士

11

这是Ray的预期用例，这是一个用于并行和分布式Python的库。在后台，它使用Apache Arrow数据布局（零副本格式）序列化对象，并将其存储在共享内存对象存储中，这样多个进程可以访问它们而无需创建副本。

该代码如下所示。

import numpy as np
import ray

ray.init()

@ray.remote
def func(array, param):
    # Do stuff.
    return 1

array = np.ones(10**6)
# Store the array in the shared memory object store once
# so it is not copied multiple times.
array_id = ray.put(array)

result_ids = [func.remote(array_id, i) for i in range(4)]
output = ray.get(result_ids)

如果您不调用ray.put该数组，则该数组仍将存储在共享内存中，但是每次调用都会完成一次func，这不是您想要的。

请注意，这不仅适用于数组，而且还适用于包含数组的对象，例如，将int映射到数组的字典，如下所示。

您可以通过在IPython中运行以下代码来比较Ray和pickle中的序列化性能。

import numpy as np
import pickle
import ray

ray.init()

x = {i: np.ones(10**7) for i in range(20)}

# Time Ray.
%time x_id = ray.put(x)  # 2.4s
%time new_x = ray.get(x_id)  # 0.00073s

# Time pickle.
%time serialized = pickle.dumps(x)  # 2.6s
%time deserialized = pickle.loads(serialized)  # 1.9s

使用Ray进行序列化仅比pickle快一点，但是由于使用了共享内存，反序列化的速度要快1000倍（此数字当然取决于对象）。

请参阅Ray文档。您可以阅读更多有关使用Ray和Arrow进行快速序列化的信息。注意我是Ray开发人员之一。

— 罗伯特·西原
source

1

雷听起来不错！但是，我之前曾尝试使用此库，但是不幸的是，我才意识到Ray不支持Windows。我希望你们能尽快支持Windows。谢谢开发人员！

— Hzzkygcs

5

就像Robert Nishihara提到的那样，Apache Arrow使得这一点变得容易，特别是使用Plasma内存对象存储库，这正是Ray所基于的。

为此，我专门制作了脑等离子体 -在Flask应用中快速加载和重新加载大对象。它是Apache Arrow可序列化对象的共享内存对象名称空间，包括pickle.d生成的'd字节字符串pickle.dumps(...)。

Apache Ray和Plasma的主要区别在于，它可以为您跟踪对象ID。在本地运行的任何进程，线程或程序都可以通过从任何Brain对象中调用名称来共享变量的值。

$ pip install brain-plasma

$ plasma_store -m 10000000 -s /tmp/plasma

from brain_plasma import Brain
brain = Brain(path='/tmp/plasma/)

brain['a'] = [1]*10000

brain['a']
# >>> [1,1,1,1,...]

— 罗素海河
source