Сжать вывод инструмента Hadoop Archive
Я использую Hadoop Archive для уменьшения количества файлов в моем кластере Hadoop, но для хранения данных я хочу хранить свои данные как можно дольше. Тогда проблема заключается в том, что Hadoop Archive не уменьшает размер папки (моя папка имеет несколько типов файлов, как небольших, так и больших, поэтому не подходит для использования в Sequence File).
Я использовал некоторые опции, такие как -D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec
но это не работа
Кто-нибудь знает способ сжать вывод Hadoop Archive, или предложить мне как-то получить обе цели (сжатие размера и уменьшение количества файлов).
Любая информация ценится. Спасибо.
1 ответ
Вы можете использовать mapred compress и запускать har для сжатых каталогов.