Как Spark пишет сжатый файл паркета?
Используя Apache Spark 1.6.4, с плагином asticsearch4hadoop, я экспортирую индекс эластичного поиска (100 млн документов, 100Go, 5 осколков) в сжатый файл партера в HDFS 2.7.
Я запускаю этот ETL как Java-программу с 1 исполнителем (8 CPU, 12Go RAM).
Процесс 5 задач (потому что 5 осколков ES) занимает около 1 часа, в большинстве случаев работает нормально, но иногда я вижу, что некоторые задачи Spark не выполняются, потому что out of memory error
,
Во время процесса я вижу в HDFS некоторые временные файлы, но они всегда имеют размер 0.
В: Мне интересно, сохраняет ли Spark данные в памяти перед записью файла gz.parquet?