Описание тега hadoop-archive
Архивы Hadoop - это архивы специального формата. Архив Hadoop отображается в каталог файловой системы. Архив Hadoop всегда имеет расширение *.har. Каталог архива Hadoop содержит файлы метаданных (в форме _index и _masterindex) и данных (part-*). Файл _index содержит имена файлов, которые являются частью архива, и расположение внутри файлов компонентов.
0
ответов
HAR-файл Hadoop: фаза перемешивания
Файлы Hadoop Archive (HAR) позволяют объединять несколько файлов в Hadoop, чтобы избежать проблемы с массивными небольшими файлами. HAR использует инфраструктуру Hadoop MapReduce для создания своих файлов и требует от пользователя загружать все файл…
11 янв '19 в 18:14
1
ответ
Java-код для создания архива Hadoop
Я разрабатываю приложение для создания 1 архивных файлов Hadoop из миллионов маленьких файлов. Я успешно проверил это с помощью командной строки (hadoop archive --archiveName foo.har -p / -r 2 test.txt /) но я не могу найти какие-либо ресурсы, чтобы…
29 июл '17 в 04:55
0
ответов
Сжатие с архивами Hadoop
Мне интересно, как сжать вывод hadoop archive, В настоящее время все, что я получаю, это вывод одинакового размера, который мне не очень помогает, так как я ищу способ сжать мои исходные данные и сохранить их на некоторое время. Эти данные представл…
13 авг '18 в 08:48
1
ответ
Архивирование входящих небольших файлов hdfs
У меня есть небольшие файлы, поступающие в hdfs каждый день. Я планирую использовать архив hasoop (HAR), но как мне архивировать эти небольшие файлы, которые поступают в hdfs каждый день? Например, я могу получить 5 файлов сегодня, мне нужно их заар…
14 янв '16 в 00:41
1
ответ
Запрос данных из хар-архивов - Apache Hive
Я использую Hadoop и сталкиваюсь со страшной проблемой большого количества маленьких файлов. Мне нужно иметь возможность создавать архивы архивов из существующих разделов улья и одновременно запрашивать их. Однако Hive, очевидно, поддерживает архиви…
03 июн '16 в 10:23
1
ответ
Сжать вывод инструмента Hadoop Archive
Я использую Hadoop Archive для уменьшения количества файлов в моем кластере Hadoop, но для хранения данных я хочу хранить свои данные как можно дольше. Тогда проблема заключается в том, что Hadoop Archive не уменьшает размер папки (моя папка имеет н…
04 июл '16 в 09:55
2
ответа
Раздел архива куста (динамический) СБОЙ: Ошибка выполнения, код возврата 1 из org.apache.hadoop.hive.ql.exec.DDLTask
Я пытаюсь заархивировать некоторые старые данные из моей таблицы. С помощью ALTER TABLE TABLE_NAME ARCHIVE PARTITION(part_col) запрос. Hadoop version - 2.7.3 Hive version - 1.2.1 Структура таблицы следующая, hive> desc clicks_fact; OK time timest…
12 окт '17 в 16:37
0
ответов
Интерфейс архива Hadoop для Scala
Я тщательно искал в Интернете любой существующий интерфейс Scala для работы с Hadoop ARchiving. Я не нашел ни одного. Есть ли доступный API?
13 фев '20 в 13:17
0
ответов
Команда архивирования Hadoop
Я новичок в Hadoop, прошу вашей помощи. как использовать новую технику архивирования Hadoop и необходимую команду?
23 июл '20 в 08:59
0
ответов
Как распаковать файлы HAR в Hadoop?
У меня есть каталог hadoop .har (с некоторыми файлами частей), как я могу его распаковать, когда скопирую har на локальный.
03 ноя '20 в 11:44
0
ответов
Библиотека Python для архива Hadoop
Есть ли способ скопировать файл из архива Hadoop (*.har) с помощью Python? Я пробовал использовать модуль подпроцесса, но он работает медленно.
15 апр '21 в 11:20