Ошибка сериализации проверки данных Tensorflow
Я запускаю проверку данных тензорного потока v0.15 на python v3.5. Я пытаюсь рассчитать стандартный набор статистики для обнаружения аномалий
pdf=spark.table("xxx").toPandas() # Small DF, fits into memory just fine
tfdv.generate_statistics_from_dataframe(pdf,n_jobs=2)
когда я пытаюсь создать статистику с несколькими процессорами, я получаю:
BrokenProcessPool: A result has failed to un-serialize. Please ensure that the objects returned by the function are always picklable.
Трекбэк:
_RemoteTraceback:
'''
Traceback (most recent call last):
File "/var/hadoop_vol/adyen_pyspark/venv/lib/python3.5/site-packages/joblib/externals/loky/process_executor.py", line 624, in _queue_management_worker
result_item = result_reader.recv()
File "/usr/local/python35/lib/python3.5/multiprocessing/connection.py", line 251, in recv
return ForkingPickler.loads(buf.getbuffer())
TypeError: __init__() takes 1 positional argument but 2 were given
'''