Ошибка файла не найдена в программе Dask, запущенной на кластере

У меня есть 4 машины, M1, M2, M3 и M4. Планировщик, клиент, рабочий работает на M1. Я положил CSV-файл в M1. Остальные машины рабочие.

Когда я запускаю программу с файлом read_csv в dask. Это дает мне ошибку, файл не найден

1 ответ

Решение

Когда один из ваших работников пытается загрузить CSV, он не сможет найти его, потому что его нет на этом локальном диске. Это не должно быть сюрпризом. Вы можете обойти это несколькими способами:

  • скопируйте файл каждому работнику; это явно расточительно с точки зрения дискового пространства, но легче всего достичь
  • поместите файл в сетевую файловую систему (монтирование NFS, кластер, HDFS и т. д.)
  • поместите файл во внешнюю систему хранения, такую ​​как amazon S3, и обратитесь к этому месту
  • загрузить данные в локальный процесс и распространить их с разбросом; в этом случае предположительно данные были достаточно малы, чтобы поместиться в памяти, и, вероятно, dask не принесет вам большой пользы.
Другие вопросы по тегам