Многопоточная свалка из Википедии

Я скачал дамп немецкой википедии dewiki-20151102-pages-article-multistream.xml. Мой короткий вопрос: что означает "многопотоковость" в данном случае?

2 ответа

Дампы сжимаются с использованием bz2, bz2 поддерживает параллельную версию, что позволяет быстрее сжимать / распаковывать файлы. Сжатые данные с использованием параллельной версии помечены как multistream,

Знание этой информации имеет значение, когда вы обрабатываете дамп из языка программирования, поскольку вы должны передать флаг, чтобы сообщить библиотеке, как распаковать его (параллельный или непараллельный).

multistream позволяет использовать индекс для распаковки разделов по мере необходимости, без необходимости распаковки всей вещи.

Это позволяет читателю извлекать статьи из сжатого дампа.

Другие вопросы по тегам