Импорт внешних модулей в spark python
У меня есть работа EMR с приложением pyspark. Мой код включает в себя некоторые внешние пакеты и некоторые файлы для поиска.
Это иерархия файловой системы, когда я попробовал то же самое в локальной коробке.
[1] Wordcount.py -> spark file
[2] Temp.py -> external packages
[3] files/
-you have some files which will be used by temp.py
Более подробная информация:
Когда я запускаю WorkCount.py, он импортирует в него temp.py. Папка files содержит некоторые файлы моделей. Temp.py внутренне использует эти файлы моделей. В локальном ящике я держал весь код в одном месте и запускал работу, там все работало нормально
Он работает нормально в localbox, но не работает, когда я запускаю в кластере
[1] No module temp found
[2] No *** file does not exist
Может кто-нибудь сказать мне, как я должен организовать это в кластере EMR так, чтобы я мог выполнить это гладко.