Многопроцессорная обработка Python: возможно ли иметь пул внутри пула?
У меня есть модуль A, который выполняет базовое отображение / сокращение, беря данные и отправляя их в модули B, C, D и т. Д. Для анализа, а затем объединяя их результаты.
Но похоже, что модули B, C, D и т. Д. Сами не могут создать пул многопроцессорной обработки, иначе я получаю
AssertionError: daemonic processes are not allowed to have children
Можно ли распараллелить эти задания другим способом?
Для ясности, вот (n, по общему признанию, плохой) пример с ребенком. (Я бы обычно пробовал / ловил, но ты понял суть.)
A.py:
import B
from multiprocessing import Pool
def main():
p = Pool()
results = p.map(B.foo,range(10))
p.close()
p.join()
return results
B.py:
from multiprocessing import Pool
def foo(x):
p = Pool()
results = p.map(str,x)
p.close()
p.join()
return results
1 ответ
Можно ли иметь бассейн внутри бассейна?
Да, это возможно, хотя это может быть плохой идеей, если вы не хотите собрать армию зомби. Из Python Process Pool не демонический?:
import multiprocessing.pool
from contextlib import closing
from functools import partial
class NoDaemonProcess(multiprocessing.Process):
# make 'daemon' attribute always return False
def _get_daemon(self):
return False
def _set_daemon(self, value):
pass
daemon = property(_get_daemon, _set_daemon)
# We sub-class multiprocessing.pool.Pool instead of multiprocessing.Pool
# because the latter is only a wrapper function, not a proper class.
class Pool(multiprocessing.pool.Pool):
Process = NoDaemonProcess
def foo(x, depth=0):
if depth == 0:
return x
else:
with closing(Pool()) as p:
return p.map(partial(foo, depth=depth-1), range(x + 1))
if __name__ == "__main__":
from pprint import pprint
pprint(foo(10, depth=2))
Выход
[[0],
[0, 1],
[0, 1, 2],
[0, 1, 2, 3],
[0, 1, 2, 3, 4],
[0, 1, 2, 3, 4, 5],
[0, 1, 2, 3, 4, 5, 6],
[0, 1, 2, 3, 4, 5, 6, 7],
[0, 1, 2, 3, 4, 5, 6, 7, 8],
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9],
[0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]]
concurrent.futures
поддерживает его по умолчанию:
# $ pip install futures # on Python 2
from concurrent.futures import ProcessPoolExecutor as Pool
from functools import partial
def foo(x, depth=0):
if depth == 0:
return x
else:
with Pool() as p:
return list(p.map(partial(foo, depth=depth-1), range(x + 1)))
if __name__ == "__main__":
from pprint import pprint
pprint(foo(10, depth=2))
Он производит тот же результат.
Можно ли распараллелить эти задания другим способом?
Да. Например, посмотрите, как celery
позволяет создать сложный рабочий процесс.