Описание тега sequencefile

A SequenceFile is a Hadoop binary file containing key/value pairs.
2 ответа

Обработка полностью изменяемых имен перезаписываемых имен в Hadoop SequenceFile

У меня есть несколько файлов Hadoop SequenceFiles, которые были написаны с помощью некоторого записываемого подкласса, который я написал. Давайте назовем это FishWritable. Некоторое время этот Writable работал хорошо, пока я не решил, что для ясност…
19 сен '13 в 00:55
0 ответов

Apache-spark Ошибка: не удалось выполнить задачу при записи строк в sequenceFile

Я создаю javaPairRDD и сохраняю его в sequenceFileFormat с помощью apache-spark. Версия Spark 2.3. Я запускаю это на нормальном кластере из 4 узлов, и путь также является нормальным путем hdfs. Я делаю это с использованием искрового кода (Java): Jav…
12 сен '18 в 10:37
1 ответ

Mahout: отсутствует класс для создания файлов последовательности

Я следую инструкциям на сайте mahout для преобразования существующего файла в файл последовательности: VectorWriter vectorWriter = SequenceFile.createWriter(filesystem, configuration, outfile, LongWritable.class, SparseVector.class); long numDocs = …
0 ответов

Хранить СДР в виде файла последовательности с разделами?

Я хочу сохранить Java RDD как файл последовательности с почасовым разделением. Есть ли способ добиться этого? Например: У меня есть записи типа: time,a1,a2,a3,a4,a5,a6,a7,a8 Я хочу, чтобы ключ как a2,a3,a4 и значения, как все значения в этом ключе и…
04 фев '17 в 07:05
1 ответ

Чтение Hadoop SequenceFiles с помощью Hive

У меня есть некоторые сопоставленные данные из Common Crawl, которые я сохранил в формате SequenceFile. Я неоднократно пытался использовать эти данные "как есть" с Hive, чтобы я мог запрашивать и пробовать их на разных этапах. Но я всегда получаю сл…
02 ноя '12 в 22:16
1 ответ

classcastException при сортировке sequenceFile в hadoop?

Я следую Hadoop-The definitive guide 3-е издание Тома Уайта. Я успешно написал sequenceFile в HDFS, Я следовал примеру автора в книге. но когда я пытаюсь запустить sort (стр. 138), я получаю classCastException, Трассировка стека доступна ниже. что з…
09 июл '14 в 18:02
1 ответ

Используя pyspark, считывайте и записывайте 2D-изображения в файловой системе hadoop

Я хочу иметь возможность читать / записывать изображения в файловой системе hdfs и использовать преимущества местоположения hdfs. У меня есть коллекция изображений, где каждое изображение состоит из 2D массивы uint16 Основная дополнительная информац…
25 фев '15 в 22:46
1 ответ

Найти кодек сжатия, используемый для файла hadoop

Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов: Avro Паркет SequenceFile Как я могу найти используемый кодек сжатия? Предполагая, что используется один из следующих кодеков сжатия (и в имени файла отсутствует расш…
20 окт '18 в 18:10
1 ответ

Файлы последовательности, созданные утилитой экспорта HBASE, не читаются

Я попробовал инструмент экспорта HBase для переноса таблицы в HDFS. Я пытался hadoop dfs -text файл, чтобы увидеть коллекцию содержимого. Однако я получил фатальную ошибку: java.lang.RuntimeException: java.io.IOException: WritableName can't load cla…
30 апр '13 в 22:48
1 ответ

Вывод Scalding TypedPipe в SequenceFile в нескольких каталогах на основе одного из полей

Я использую Scalding в Hadoop, у меня есть большой набор данных в форме TypedPipe, который я хочу выводить порциями на основе одного из полей данных. Например, данные <category, field1, field2>и я хочу, чтобы данные для каждой категории сохран…
10 май '15 в 10:08
1 ответ

Формат ввода Hadoop

При подготовке к экзамену на хадуп наткнулся ниже на вопрос, на который я не мог понять правильный ответ, не уверен в правильности вопроса. Дан каталог файлов со следующей структурой: номер строки, символ табуляции, строка: Example: 1. abialkjfjkaoa…
16 мар '15 в 04:32
1 ответ

Как прочитать файл последовательности Hadoop с использованием Java

У меня есть файл последовательности, сгенерированный Spark с помощью функции saveAsObjectFile. Содержимое файла - это просто некоторые целые числа. И я хочу прочитать это локально с Java. Вот мой код: FileSystem fileSystem = null; SequenceFile.Reade…
04 апр '18 в 07:19
1 ответ

Каждый прогон одной и той же подпрограммы создания Hadoop SequenceFile создает файл с другим crc. Это нормально?

У меня есть простой код, который создает файл последовательности Hadoop. Каждый запускаемый код оставляет в рабочем каталоге два файла: mySequenceFile.txt .mySequenceFile.txt.crc После каждого запуска размеры обоих файлов остаются неизменными. Но со…
22 июл '15 в 16:53
3 ответа

Почему SequenceFile усекается?

Я учусь Hadoop и эта проблема на некоторое время сбила меня с толку. В основном я пишу SequenceFile на диск, а затем прочитать его обратно. Тем не менее, каждый раз, когда я получаю EOFException при чтении. Более глубокий взгляд показывает, что при …
13 янв '15 в 07:24
2 ответа

SequenceFile как текстовый CLI с пользовательским классом

У меня есть файл HDFS в SequenceFile формат. Ключ Text и значение является настраиваемым сериализуемым классом (скажем) MyCustomClass, Я хочу прочитать этот файл через hadoop fs -text команда, но она терпит неудачу, поскольку hadoop не знает, что My…
25 июл '16 в 17:15
1 ответ

Как узнать, какой это файл Kind of Sequence?

Я новичок в Hadoop и наткнулся на несколько файлов Sequence. Когда я читаю Sequence File, есть 3 способа создать файл последовательности. Теперь у меня есть файл последовательности, как узнать, что это за файл последовательности. Как мне прочитать м…
26 авг '16 в 12:17
0 ответов

Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?

У меня есть работа MR, которая производит файл последовательности с ключом в качестве экземпляра класса Java MyJavaKey и значение другого объекта Java RecordInfo, Мне нужно использовать работу PySpark, чтобы прочитать этот файл в Python. Это вообще …
15 фев '19 в 05:36
0 ответов

SequenceFile.Writer приводит к исключению NullPointerException

Привет, я пытаюсь создать простой файл последовательности с библиотеками mahout, используя приведенный ниже код. Во время выполнения кода я получаю NullPointerException после создания пустого файла, public class SequenceFileWriter { public static vo…
26 окт '17 в 17:07
0 ответов

Hadoop читает документ из большого файла последовательности

Я пытаюсь прочитать документ json по ключу из файла последовательности hadoop (размер более 1 ГБ), используя устройство чтения hadoop. Если ключ является первым в файле, значение приходит быстро, если ключ является последним в этом файле, это займет…
04 ноя '18 в 13:44
0 ответов

Сохранение сложных данных с помощью SequenceFile Hadoop

Мой вопрос заключается в том, как сгенерировать sequenceFile из текста для вывода некоторого формата, подобного этому: <string, string>,<double, double> левая сторона - это ключ, а правая сторона - это значение.
20 ноя '13 в 03:07