使用多处理队列,池和锁定的简单示例


91

我试图阅读http://docs.python.org/dev/library/multiprocessing.html上的文档,但是我仍然在多处理队列,池和锁定方面苦苦挣扎。现在,我能够构建以下示例。

关于队列和池,我不确定我是否以正确的方式理解了这个概念,如果我错了,请纠正我。我想要实现的是一次处理2个请求(此示例中的数据列表中有8个),那么我应该使用什么呢?池中创建2个可以处理两个不同队列的进程(最大2个),还是应该每次仅使用Queue处理2个输入?锁定将是正确打印输出。

import multiprocessing
import time

data = (['a', '2'], ['b', '4'], ['c', '6'], ['d', '8'],
        ['e', '1'], ['f', '3'], ['g', '5'], ['h', '7']
)


def mp_handler(var1):
    for indata in var1:
        p = multiprocessing.Process(target=mp_worker, args=(indata[0], indata[1]))
        p.start()


def mp_worker(inputs, the_time):
    print " Processs %s\tWaiting %s seconds" % (inputs, the_time)
    time.sleep(int(the_time))
    print " Process %s\tDONE" % inputs

if __name__ == '__main__':
    mp_handler(data)

Answers:


129

最好的解决方案是利用Pool。使用Queues并具有单独的“队列馈送”功能可能会过大。

这是程序的稍微重新排列的版本,这次只有2个进程包含在Pool。我相信这是最简单的方法,只需对原始代码进行最少的更改即可:

import multiprocessing
import time

data = (
    ['a', '2'], ['b', '4'], ['c', '6'], ['d', '8'],
    ['e', '1'], ['f', '3'], ['g', '5'], ['h', '7']
)

def mp_worker((inputs, the_time)):
    print " Processs %s\tWaiting %s seconds" % (inputs, the_time)
    time.sleep(int(the_time))
    print " Process %s\tDONE" % inputs

def mp_handler():
    p = multiprocessing.Pool(2)
    p.map(mp_worker, data)

if __name__ == '__main__':
    mp_handler()

请注意,该mp_worker()函数现在接受一个参数(前两个参数的一个元组),因为该map()函数将您的输入数据分块为子列表,每个子列表都作为一个单独的参数提供给worker函数。

输出:

Processs a  Waiting 2 seconds
Processs b  Waiting 4 seconds
Process a   DONE
Processs c  Waiting 6 seconds
Process b   DONE
Processs d  Waiting 8 seconds
Process c   DONE
Processs e  Waiting 1 seconds
Process e   DONE
Processs f  Waiting 3 seconds
Process d   DONE
Processs g  Waiting 5 seconds
Process f   DONE
Processs h  Waiting 7 seconds
Process g   DONE
Process h   DONE

根据下面的@Thales评论进行编辑:

如果要“为每个池限制加锁”,以便您的进程成对运行,请执行以下操作:

A等待B等待| A完成,B完成| C等待D等待| C完成,D完成| ...

然后更改处理程序功能以为每对数据启动池(由2个进程组成):

def mp_handler():
    subdata = zip(data[0::2], data[1::2])
    for task1, task2 in subdata:
        p = multiprocessing.Pool(2)
        p.map(mp_worker, (task1, task2))

现在您的输出是:

 Processs a Waiting 2 seconds
 Processs b Waiting 4 seconds
 Process a  DONE
 Process b  DONE
 Processs c Waiting 6 seconds
 Processs d Waiting 8 seconds
 Process c  DONE
 Process d  DONE
 Processs e Waiting 1 seconds
 Processs f Waiting 3 seconds
 Process e  DONE
 Process f  DONE
 Processs g Waiting 5 seconds
 Processs h Waiting 7 seconds
 Process g  DONE
 Process h  DONE

感谢您提供的简单直接的示例,但是如何为每个池限制应用锁?我的意思是,如果您执行代码,我希望看到类似“ A等待B等待| A完成,B完成| C等待,D等待| C完成,D完成”的内容
thclpr 2014年

2
换句话说,您不希望C在A和B都完成之前开始吗?
Velimir Mlaker

确实,我可以使用multiprocessing.Process来做到这一点,但是我不知道如何使用池来做到这一点
thclpr 2014年

非常感谢您,按预期工作,但是在函数mp_handler上,您引用的是变量数据而不是var1 :)
thclpr 2014年

好的,谢谢,我var1完全删除了,data而是指global 。
Velimir Mlaker,2014年

8

这可能与问题并非100%相关,但是在我搜索的示例中,将多处理与队列一起使用时,这首先显示在google上。

这是一个基本的示例类,您可以实例化项目并将其放入队列中,并且可以等待队列完成。这就是我所需要的。

from multiprocessing import JoinableQueue
from multiprocessing.context import Process


class Renderer:
    queue = None

    def __init__(self, nb_workers=2):
        self.queue = JoinableQueue()
        self.processes = [Process(target=self.upload) for i in range(nb_workers)]
        for p in self.processes:
            p.start()

    def render(self, item):
        self.queue.put(item)

    def upload(self):
        while True:
            item = self.queue.get()
            if item is None:
                break

            # process your item here

            self.queue.task_done()

    def terminate(self):
        """ wait until queue is empty and terminate processes """
        self.queue.join()
        for p in self.processes:
            p.terminate()

r = Renderer()
r.render(item1)
r.render(item2)
r.terminate()

2
什么是item1item2?它们是某种任务或功能,将在两个不同的过程中执行吗?
Zelphir Kaltstahl

2
是的,它们是以并行方式处理的任务或输入参数。
linqu '16

8

这是我针对该主题的个人转到:

要点在这里(欢迎拉动!):https : //gist.github.com/thorsummoner/b5b1dfcff7e7fdd334ec

import multiprocessing
import sys

THREADS = 3

# Used to prevent multiple threads from mixing thier output
GLOBALLOCK = multiprocessing.Lock()


def func_worker(args):
    """This function will be called by each thread.
    This function can not be a class method.
    """
    # Expand list of args into named args.
    str1, str2 = args
    del args

    # Work
    # ...



    # Serial-only Portion
    GLOBALLOCK.acquire()
    print(str1)
    print(str2)
    GLOBALLOCK.release()


def main(argp=None):
    """Multiprocessing Spawn Example
    """
    # Create the number of threads you want
    pool = multiprocessing.Pool(THREADS)

    # Define two jobs, each with two args.
    func_args = [
        ('Hello', 'World',), 
        ('Goodbye', 'World',), 
    ]


    try:
        # Spawn up to 9999999 jobs, I think this is the maximum possible.
        # I do not know what happens if you exceed this.
        pool.map_async(func_worker, func_args).get(9999999)
    except KeyboardInterrupt:
        # Allow ^C to interrupt from any thread.
        sys.stdout.write('\033[0m')
        sys.stdout.write('User Interupt\n')
    pool.close()

if __name__ == '__main__':
    main()

1
我不确定.map_async()是否比.map()更好。
ThorSummoner '16

3
to的参数get()是超时,与启动的作业数量无关。
马塔

@mata那么,这是否意味着要在轮询循环中使用?.get(timeout=1)?可以说.get()得到完整列表吗?
ThorSummoner

是的,.get()无限期等待,直到所有结果都可用并返回结果列表。您可以使用轮询循环来检查天气结果是否可用,也可以在map_async()调用中传递回调函数,一旦有结果可用,就会为每个结果调用该函数。
马塔

2

对于使用Komodo Edit(win10)等编辑器的每个人,请添加sys.stdout.flush()到:

def mp_worker((inputs, the_time)):
    print " Process %s\tWaiting %s seconds" % (inputs, the_time)
    time.sleep(int(the_time))
    print " Process %s\tDONE" % inputs
    sys.stdout.flush()

或作为第一行:

    if __name__ == '__main__':
       sys.stdout.flush()

这有助于查看脚本运行期间发生了什么。不必查看黑色命令行框。


1

这是我的代码中的一个示例(用于线程池,但是只需更改类名,您将拥有进程池):

def execute_run(rp): 
   ... do something 

pool = ThreadPoolExecutor(6)
for mat in TESTED_MATERIAL:
    for en in TESTED_ENERGIES:
        for ecut in TESTED_E_CUT:
            rp = RunParams(
                simulations, DEST_DIR,
                PARTICLE, mat, 960, 0.125, ecut, en
            )
            pool.submit(execute_run, rp)
pool.join()

基本上:

  • pool = ThreadPoolExecutor(6) 为6个线程创建一个池
  • 然后,您可以通过一堆for任务将任务添加到池中
  • pool.submit(execute_run, rp) 向池添加任务,第一个自变量是在线程/进程中调用的函数,其余参数传递给被调用的函数。
  • pool.join 等待直到所有任务完成。

2
请注意,您正在使用concurrent.futures,但OP正在询问multiprocessingPython 2.7。
蒂姆·彼得斯
By using our site, you acknowledge that you have read and understand our Cookie Policy and Privacy Policy.
Licensed under cc by-sa 3.0 with attribution required.