Answers:
imap
/ imap_unordered
和map
/ 之间有两个主要区别map_async
:
map
通过将iterable转换为列表(假设它还不是列表)来消耗iterable,将其分成多个块,然后将这些块发送到中的worker进程Pool
。与将可迭代项中的每个项目一次在一个进程中的一个进程之间传递相比,将可迭代项拆分为多个块效果更好-特别是在可迭代项较大的情况下。但是,将迭代器转换为列表以对其进行分块可能会具有很高的内存成本,因为整个列表都需要保留在内存中。
imap
不会将您提供的可迭代项变成一个列表,也不会将其分成多个块(默认情况下)。它将一次遍历可迭代的一个元素,并将它们分别发送给工作进程。这意味着您不会浪费将整个可迭代对象转换为列表的内存,但是这也意味着由于缺少分块,大型可迭代对象的性能会降低。但是,可以通过传递chunksize
大于默认值1 的参数来缓解这种情况。
imap
/ imap_unordered
和map
/ 之间的另一个主要区别map_async
是,使用imap
/ imap_unordered
,您可以在工作人员准备就绪后立即开始接收其结果,而不必等待所有工作完成。使用map_async
,AsyncResult
会立即返回an ,但您实际上无法从该对象检索结果,除非所有结果都已处理完毕,然后它会返回与之相同的列表map
(map
实际上是在内部实现的map_async(...).get()
)。无法获得部分结果。您要么拥有整个结果,要么一无所有。
imap
并且imap_unordered
都立即返回可迭代对象。使用时imap
,结果将在准备好后立即从Iterable中产生,同时仍保留可迭代输入的顺序。使用imap_unordered
,无论输入可迭代的顺序如何,都将在准备好结果后立即产生结果。所以,说你有这个:
import multiprocessing
import time
def func(x):
time.sleep(x)
return x + 2
if __name__ == "__main__":
p = multiprocessing.Pool()
start = time.time()
for x in p.imap(func, [1,5,3]):
print("{} (Time elapsed: {}s)".format(x, int(time.time() - start)))
这将输出:
3 (Time elapsed: 1s)
7 (Time elapsed: 5s)
5 (Time elapsed: 5s)
如果您使用p.imap_unordered
而不是p.imap
,则会看到:
3 (Time elapsed: 1s)
5 (Time elapsed: 3s)
7 (Time elapsed: 5s)
如果您使用p.map
或p.map_async().get()
,则会看到:
3 (Time elapsed: 5s)
7 (Time elapsed: 5s)
5 (Time elapsed: 5s)
因此,使用imap
/ imap_unordered
超过的主要原因map_async
是:
apply
将单个任务发送给工作进程,然后阻塞直到完成。apply_async
将单个任务发送给工作流程,然后立即返回一个AsyncResult
对象,该对象可用于等待任务完成并检索结果。apply
通过简单地调用即可实现apply_async(...).get()