Как Spark пишет сжатый файл паркета?

Используя Apache Spark 1.6.4, с плагином asticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7.

Я запускаю этот ETL как Java-программу с 1 исполнителем (8 CPU, 12Go RAM).

Процесс 5 задач (потому что 5 осколков ES) занимает около 1 часа, в большинстве случаев работает нормально, но иногда я вижу, что некоторые задачи Spark не выполняются, потому что out of memory error,

Во время процесса я вижу в HDFS некоторые временные файлы, но они всегда имеют размер 0.

В: Мне интересно, сохраняет ли Spark данные в памяти перед записью файла gz.parquet?

0 ответов

Другие вопросы по тегам