Как сжатый файл читается во время распаковки?

Question

Как сжатый файл читается во время распаковки?

Как сжатый файл размером 5 ГБ записывается в память и сжимается? Нужно ли читать весь файл перед распаковкой? Мой вопрос связан с обработкой сжатых файлов в Hadoop, который не может разделить обработку, как для несжатых файлов. Как насчет bzip2? какие-либо различия?

Спасибо,

2

hadoop compression gzip bzip2

Источник

user1339237 18 янв '15 в 18:32

2 ответа

Другие вопросы по тегам hadoop compression gzip bzip2

user1180620 18 янв '15 в 21:03 2015-01-18 21:03 · Answer 1 · 2015-01-18 21:03

Нет, 5 ГБ не нужно читать в память. Вы можете читать в байтах за раз, если хотите, и распаковывать их таким образом. gzip, bzip2 и все известные мне форматы сжатия являются потоковыми форматами. Вы можете читать мелкими битами и распаковывать их последовательно, никогда не возвращаясь в файл назад. (Формат.ZIP имеет в конце информацию заголовка, поэтому распаковщики обычно ищут оттуда записи назад. Однако это не требуется, и файл.ZIP может быть сжат и распакован как поток.)

user553653 19 янв '15 в 21:32 2015-01-19 21:32 · Answer 2 · 2015-01-19 21:32

Разархивированные файлы не разделяются, что означает, что в mapreduce всегда будет только 1 картограф, считывающий файл, поэтому перед установкой в HDFS рекомендуется сначала разархивировать его. bzip-файлы разделяемые, и они лучше подходят для Hadoop, чем gzip-файлы.

0

Источник

user553653 19 янв '15 в 21:32