Как работать с входными файлами.gz с помощью Hadoop?

Question

Как работать с входными файлами.gz с помощью Hadoop?

Пожалуйста, позвольте мне предоставить сценарий:

hadoop jar test.jar Test inputFileFolder outputFileFolder

где

test.jar сортирует информацию по ключу, времени и месту
inputFileFolder содержит несколько файлов.gz, каждый файл.gz составляет около 10 ГБ
outputFileFolder содержит кучу файлов.gz

Мой вопрос заключается в том, какой лучший способ иметь дело с этими.gz файлом в inputFileFolder? Спасибо!

0

hadoop zip gzip hadoop2 hadoop-partitioning

Источник

user5397906 05 ноя '15 в 15:27

1 ответ

Решение

Другие вопросы по тегам hadoop zip gzip hadoop2 hadoop-partitioning

user729819 05 ноя '15 в 16:37 2015-11-05 16:37 · Accepted Answer · 2015-11-05 16:37

Hadoop автоматически обнаружит и прочитает файлы.gz. Однако, поскольку.gz не является форматом сжатия, который можно разделить, каждый файл будет читаться одним устройством отображения. Лучше всего использовать другой формат, такой как Snappy, или распаковать, разделить и повторно сжать в файлы меньшего размера, размером с блок.