Как работать с входными файлами.gz с помощью Hadoop?

Пожалуйста, позвольте мне предоставить сценарий:

hadoop jar test.jar Test inputFileFolder outputFileFolder

где

  • test.jar сортирует информацию по ключу, времени и месту
  • inputFileFolder содержит несколько файлов.gz, каждый файл.gz составляет около 10 ГБ
  • outputFileFolder содержит кучу файлов.gz

Мой вопрос заключается в том, какой лучший способ иметь дело с этими.gz файлом в inputFileFolder? Спасибо!

1 ответ

Решение

Hadoop автоматически обнаружит и прочитает файлы.gz. Однако, поскольку.gz не является форматом сжатия, который можно разделить, каждый файл будет читаться одним устройством отображения. Лучше всего использовать другой формат, такой как Snappy, или распаковать, разделить и повторно сжать в файлы меньшего размера, размером с блок.

Другие вопросы по тегам