Как работать с входными файлами.gz с помощью Hadoop?
Пожалуйста, позвольте мне предоставить сценарий:
hadoop jar test.jar Test inputFileFolder outputFileFolder
где
test.jar
сортирует информацию по ключу, времени и местуinputFileFolder
содержит несколько файлов.gz, каждый файл.gz составляет около 10 ГБoutputFileFolder
содержит кучу файлов.gz
Мой вопрос заключается в том, какой лучший способ иметь дело с этими.gz файлом в inputFileFolder? Спасибо!
1 ответ
Решение
Hadoop автоматически обнаружит и прочитает файлы.gz. Однако, поскольку.gz не является форматом сжатия, который можно разделить, каждый файл будет читаться одним устройством отображения. Лучше всего использовать другой формат, такой как Snappy, или распаковать, разделить и повторно сжать в файлы меньшего размера, размером с блок.