Описание тега hadoop-archive

Архивы Hadoop - это архивы специального формата. Архив Hadoop отображается в каталог файловой системы. Архив Hadoop всегда имеет расширение *.har. Каталог архива Hadoop содержит файлы метаданных (в форме _index и _masterindex) и данных (part-*). Файл _index содержит имена файлов, которые являются частью архива, и расположение внутри файлов компонентов.
0 ответов

HAR-файл Hadoop: фаза перемешивания

Файлы Hadoop Archive (HAR) позволяют объединять несколько файлов в Hadoop, чтобы избежать проблемы с массивными небольшими файлами. HAR использует инфраструктуру Hadoop MapReduce для создания своих файлов и требует от пользователя загружать все файл…
1 ответ

Java-код для создания архива Hadoop

Я разрабатываю приложение для создания 1 архивных файлов Hadoop из миллионов маленьких файлов. Я успешно проверил это с помощью командной строки (hadoop archive --archiveName foo.har -p / -r 2 test.txt /) но я не могу найти какие-либо ресурсы, чтобы…
29 июл '17 в 04:55
0 ответов

Сжатие с архивами Hadoop

Мне интересно, как сжать вывод hadoop archive, В настоящее время все, что я получаю, это вывод одинакового размера, который мне не очень помогает, так как я ищу способ сжать мои исходные данные и сохранить их на некоторое время. Эти данные представл…
13 авг '18 в 08:48
1 ответ

Архивирование входящих небольших файлов hdfs

У меня есть небольшие файлы, поступающие в hdfs каждый день. Я планирую использовать архив hasoop (HAR), но как мне архивировать эти небольшие файлы, которые поступают в hdfs каждый день? Например, я могу получить 5 файлов сегодня, мне нужно их заар…
14 янв '16 в 00:41
1 ответ

Запрос данных из хар-архивов - Apache Hive

Я использую Hadoop и сталкиваюсь со страшной проблемой большого количества маленьких файлов. Мне нужно иметь возможность создавать архивы архивов из существующих разделов улья и одновременно запрашивать их. Однако Hive, очевидно, поддерживает архиви…
03 июн '16 в 10:23
1 ответ

Сжать вывод инструмента Hadoop Archive

Я использую Hadoop Archive для уменьшения количества файлов в моем кластере Hadoop, но для хранения данных я хочу хранить свои данные как можно дольше. Тогда проблема заключается в том, что Hadoop Archive не уменьшает размер папки (моя папка имеет н…
04 июл '16 в 09:55
2 ответа

Раздел архива куста (динамический) СБОЙ: Ошибка выполнения, код возврата 1 из org.apache.hadoop.hive.ql.exec.DDLTask

Я пытаюсь заархивировать некоторые старые данные из моей таблицы. С помощью ALTER TABLE TABLE_NAME ARCHIVE PARTITION(part_col) запрос. Hadoop version - 2.7.3 Hive version - 1.2.1 Структура таблицы следующая, hive> desc clicks_fact; OK time timest…
12 окт '17 в 16:37
0 ответов

Интерфейс архива Hadoop для Scala

Я тщательно искал в Интернете любой существующий интерфейс Scala для работы с Hadoop ARchiving. Я не нашел ни одного. Есть ли доступный API?
13 фев '20 в 13:17
0 ответов

Команда архивирования Hadoop

Я новичок в Hadoop, прошу вашей помощи. как использовать новую технику архивирования Hadoop и необходимую команду?
23 июл '20 в 08:59
0 ответов

Как распаковать файлы HAR в Hadoop?

У меня есть каталог hadoop .har (с некоторыми файлами частей), как я могу его распаковать, когда скопирую har на локальный.
03 ноя '20 в 11:44
0 ответов

Библиотека Python для архива Hadoop

Есть ли способ скопировать файл из архива Hadoop (*.har) с помощью Python? Я пробовал использовать модуль подпроцесса, но он работает медленно.
15 апр '21 в 11:20