Сжать вывод инструмента Hadoop Archive

Я использую Hadoop Archive для уменьшения количества файлов в моем кластере Hadoop, но для хранения данных я хочу хранить свои данные как можно дольше. Тогда проблема заключается в том, что Hadoop Archive не уменьшает размер папки (моя папка имеет несколько типов файлов, как небольших, так и больших, поэтому не подходит для использования в Sequence File).

Я использовал некоторые опции, такие как -D mapreduce.compress.map.output=true -D mapred.map.ouput.compress.codec=org.apache.hadoop.io.compress.GzipCodec но это не работа

Кто-нибудь знает способ сжать вывод Hadoop Archive, или предложить мне как-то получить обе цели (сжатие размера и уменьшение количества файлов).

Любая информация ценится. Спасибо.

1 ответ

Вы можете использовать mapred compress и запускать har для сжатых каталогов.

Другие вопросы по тегам