Описание тега sequencefile
A SequenceFile is a Hadoop binary file containing key/value pairs.
2
ответа
Обработка полностью изменяемых имен перезаписываемых имен в Hadoop SequenceFile
У меня есть несколько файлов Hadoop SequenceFiles, которые были написаны с помощью некоторого записываемого подкласса, который я написал. Давайте назовем это FishWritable. Некоторое время этот Writable работал хорошо, пока я не решил, что для ясност…
19 сен '13 в 00:55
0
ответов
Apache-spark Ошибка: не удалось выполнить задачу при записи строк в sequenceFile
Я создаю javaPairRDD и сохраняю его в sequenceFileFormat с помощью apache-spark. Версия Spark 2.3. Я запускаю это на нормальном кластере из 4 узлов, и путь также является нормальным путем hdfs. Я делаю это с использованием искрового кода (Java): Jav…
12 сен '18 в 10:37
1
ответ
Mahout: отсутствует класс для создания файлов последовательности
Я следую инструкциям на сайте mahout для преобразования существующего файла в файл последовательности: VectorWriter vectorWriter = SequenceFile.createWriter(filesystem, configuration, outfile, LongWritable.class, SparseVector.class); long numDocs = …
11 мар '15 в 14:06
0
ответов
Хранить СДР в виде файла последовательности с разделами?
Я хочу сохранить Java RDD как файл последовательности с почасовым разделением. Есть ли способ добиться этого? Например: У меня есть записи типа: time,a1,a2,a3,a4,a5,a6,a7,a8 Я хочу, чтобы ключ как a2,a3,a4 и значения, как все значения в этом ключе и…
04 фев '17 в 07:05
1
ответ
Чтение Hadoop SequenceFiles с помощью Hive
У меня есть некоторые сопоставленные данные из Common Crawl, которые я сохранил в формате SequenceFile. Я неоднократно пытался использовать эти данные "как есть" с Hive, чтобы я мог запрашивать и пробовать их на разных этапах. Но я всегда получаю сл…
02 ноя '12 в 22:16
1
ответ
classcastException при сортировке sequenceFile в hadoop?
Я следую Hadoop-The definitive guide 3-е издание Тома Уайта. Я успешно написал sequenceFile в HDFS, Я следовал примеру автора в книге. но когда я пытаюсь запустить sort (стр. 138), я получаю classCastException, Трассировка стека доступна ниже. что з…
09 июл '14 в 18:02
1
ответ
Используя pyspark, считывайте и записывайте 2D-изображения в файловой системе hadoop
Я хочу иметь возможность читать / записывать изображения в файловой системе hdfs и использовать преимущества местоположения hdfs. У меня есть коллекция изображений, где каждое изображение состоит из 2D массивы uint16 Основная дополнительная информац…
25 фев '15 в 22:46
1
ответ
Найти кодек сжатия, используемый для файла hadoop
Имеется сжатый файл, написанный на платформе hadoop, в одном из следующих форматов: Avro Паркет SequenceFile Как я могу найти используемый кодек сжатия? Предполагая, что используется один из следующих кодеков сжатия (и в имени файла отсутствует расш…
20 окт '18 в 18:10
1
ответ
Файлы последовательности, созданные утилитой экспорта HBASE, не читаются
Я попробовал инструмент экспорта HBase для переноса таблицы в HDFS. Я пытался hadoop dfs -text файл, чтобы увидеть коллекцию содержимого. Однако я получил фатальную ошибку: java.lang.RuntimeException: java.io.IOException: WritableName can't load cla…
30 апр '13 в 22:48
1
ответ
Вывод Scalding TypedPipe в SequenceFile в нескольких каталогах на основе одного из полей
Я использую Scalding в Hadoop, у меня есть большой набор данных в форме TypedPipe, который я хочу выводить порциями на основе одного из полей данных. Например, данные <category, field1, field2>и я хочу, чтобы данные для каждой категории сохран…
10 май '15 в 10:08
1
ответ
Формат ввода Hadoop
При подготовке к экзамену на хадуп наткнулся ниже на вопрос, на который я не мог понять правильный ответ, не уверен в правильности вопроса. Дан каталог файлов со следующей структурой: номер строки, символ табуляции, строка: Example: 1. abialkjfjkaoa…
16 мар '15 в 04:32
1
ответ
Как прочитать файл последовательности Hadoop с использованием Java
У меня есть файл последовательности, сгенерированный Spark с помощью функции saveAsObjectFile. Содержимое файла - это просто некоторые целые числа. И я хочу прочитать это локально с Java. Вот мой код: FileSystem fileSystem = null; SequenceFile.Reade…
04 апр '18 в 07:19
1
ответ
Каждый прогон одной и той же подпрограммы создания Hadoop SequenceFile создает файл с другим crc. Это нормально?
У меня есть простой код, который создает файл последовательности Hadoop. Каждый запускаемый код оставляет в рабочем каталоге два файла: mySequenceFile.txt .mySequenceFile.txt.crc После каждого запуска размеры обоих файлов остаются неизменными. Но со…
22 июл '15 в 16:53
3
ответа
Почему SequenceFile усекается?
Я учусь Hadoop и эта проблема на некоторое время сбила меня с толку. В основном я пишу SequenceFile на диск, а затем прочитать его обратно. Тем не менее, каждый раз, когда я получаю EOFException при чтении. Более глубокий взгляд показывает, что при …
13 янв '15 в 07:24
2
ответа
SequenceFile как текстовый CLI с пользовательским классом
У меня есть файл HDFS в SequenceFile формат. Ключ Text и значение является настраиваемым сериализуемым классом (скажем) MyCustomClass, Я хочу прочитать этот файл через hadoop fs -text команда, но она терпит неудачу, поскольку hadoop не знает, что My…
25 июл '16 в 17:15
1
ответ
Как узнать, какой это файл Kind of Sequence?
Я новичок в Hadoop и наткнулся на несколько файлов Sequence. Когда я читаю Sequence File, есть 3 способа создать файл последовательности. Теперь у меня есть файл последовательности, как узнать, что это за файл последовательности. Как мне прочитать м…
26 авг '16 в 12:17
0
ответов
Как прочитать файл последовательности, созданный заданием Java MR в Pyspark?
У меня есть работа MR, которая производит файл последовательности с ключом в качестве экземпляра класса Java MyJavaKey и значение другого объекта Java RecordInfo, Мне нужно использовать работу PySpark, чтобы прочитать этот файл в Python. Это вообще …
15 фев '19 в 05:36
0
ответов
SequenceFile.Writer приводит к исключению NullPointerException
Привет, я пытаюсь создать простой файл последовательности с библиотеками mahout, используя приведенный ниже код. Во время выполнения кода я получаю NullPointerException после создания пустого файла, public class SequenceFileWriter { public static vo…
26 окт '17 в 17:07
0
ответов
Hadoop читает документ из большого файла последовательности
Я пытаюсь прочитать документ json по ключу из файла последовательности hadoop (размер более 1 ГБ), используя устройство чтения hadoop. Если ключ является первым в файле, значение приходит быстро, если ключ является последним в этом файле, это займет…
04 ноя '18 в 13:44
0
ответов
Сохранение сложных данных с помощью SequenceFile Hadoop
Мой вопрос заключается в том, как сгенерировать sequenceFile из текста для вывода некоторого формата, подобного этому: <string, string>,<double, double> левая сторона - это ключ, а правая сторона - это значение.
20 ноя '13 в 03:07