Как работать с PYSPARK локально и работать на Spark Cluster?
Я новичок в Spark. Я установил Spark 2.3.0 в автономном режиме на сервере Ubuntu 16.04.3. Это хорошо работает до сих пор. Теперь я хотел бы начать разработку с pyspark, потому что у меня больше опыта использования python, чем scala.
Хорошо. Даже после некоторого использования Google я не уверен, как мне настроить среду разработки. Моя локальная машина - ноутбук с операционной системой Windows 10 с настроенным Eclipse Neon и Pydev. Каковы необходимые шаги для настройки, которую я могу разработать в локальном контексте и передать свои модули в кластер искров на моем сервере?
Спасибо за помощь.
1 ответ
Используйте spark-submit для запуска локально или в кластере. Есть много онлайн-уроков для этого. Мне нравится документация AWS, которая объясняет архитектуру, содержит пример кода зажигания и примеры локальных и удаленных команд. Даже если вы не используете AWS EMR, основы остаются прежними.
попробуйте и дайте нам знать, как оно идет