Описание тега avro
Apache Avro - это среда сериализации данных, которая в основном используется в Apache Hadoop.
1
ответ
Поток данных AvroCoder, похоже, теряет информацию о типе для сериализации объектов
У меня есть пользовательский тип, который передается PCollections и отмечен @DefaultCoder(AvroCoder.class) - этот тип содержит несколько примитивов вместе с Map<String, Object> который извлекается из строки JSON с помощью читателя. При первона…
12 дек '16 в 03:46
1
ответ
Avro Generic Record не учитывает псевдонимы
У меня есть некоторые JsonData (объекты fastxml.jackson), и я хочу преобразовать это в запись GenericAvro. Поскольку я не знаю заранее, какие данные я буду получать, только то, что в репозитории схемы есть схема Avro. Я не могу иметь предопределенны…
09 авг '18 в 16:02
0
ответов
Преобразование из файла.avsc в файл Java с использованием Maven
Я создал .avsc файл и я объявил следующее поле: { "name": "event_time", "type": { "type" : "long", "logicalType": "timestamp-millis"}, "doc": "The timestamp when the event was registered." } Когда package инструкция от maven выполняется, создается с…
18 дек '17 в 13:40
0
ответов
Запрос файла паркета через Apache Parquet-Mr Java
В настоящее время я использую Apache Parquet-Mr(Java) для обработки файлов Parquet. Я заинтересован в написании запроса к файлу Parquet вида SELECT X FROM TABLE1, ГДЕ Y>1 изначально (без использования чего-либо вроде Apache Drill). Я могу отфильтров…
24 авг '18 в 11:02
1
ответ
Как выполнить операцию соединения с данными в формате AVRO в потоках kafka с использованием JAVA
ПОТОК-1: [KSTREAM-SOURCE-0000000000]: null, {"id": 1, "name": "john", "age": 26, "updated_at": 1525774480752} [KSTREAM-SOURCE-0000000000]: null, {"id": 2, "name": "jane", "age": 24, "updated_at": 1525774480784} [KSTREAM-SOURCE-0000000000]: null, {"i…
21 май '18 в 10:38
5
ответов
Каковы плюсы и минусы формата паркета по сравнению с другими форматами?
Характеристики Apache Parquet: Самоописание Колоночный формат Независимый от языка По сравнению с Avro, Sequence Files, RC File и т. Д. Я хочу краткий обзор форматов. Я уже читал: как Impala работает с форматами файлов Hadoop, он дает некоторое пред…
24 апр '16 в 10:59
1
ответ
Ошибка схемы Avro, когда в записи отсутствует поле
Я использую процессор NiFi (v1.2) ConvertJSONToAvro. Я не могу проанализировать запись, которая содержит только 1 из 2 элементов типа "запись". Этот элемент также может полностью отсутствовать в данных. Моя схема Avro неверна? Фрагмент схемы: "name"…
03 ноя '17 в 18:53
1
ответ
Создание таблицы HIVE, которая фильтрует данные из CSV-файла в HDFS на основе значения в столбце.
В настоящее время у меня есть файл, который содержит данные, которые должны заполнить 9 различных таблиц. Каждая из этих таблиц имеет различное количество столбцов и типов данных, поэтому мне нужно отфильтровать исходный файл (используя первый столб…
19 июн '17 в 11:18
1
ответ
Как создать файл.avsc из входного файла avro?
Как создать файл ".avsc" из заголовка avro? Является ли первая строка содержимого файлом avsc для этого avro? Или содержимое avsc должно начинаться с: {"type":"record" upto "}avro? Я пробовал вышеупомянутые 2 шага, но не смог сгенерировать ожидаемый…
26 апр '18 в 08:35
0
ответов
Авро схема объединение записей для файла CSV
Есть ли возможность иметь объединение записей для схемы avro? У меня есть схема avro, которая описывает CSV-файл. Я пишу данные в Кафку. После того, как я закончил, я хотел бы добавить маркер EOF. Есть ли возможность описать это в avro? Record1 - эт…
06 ноя '17 в 13:16
2
ответа
Исключение в десериализации авро объекта в карте уменьшено
Я пытаюсь запустить задание уменьшения карты, которое принимает avro-файл и выполняет некоторую обработку. Я следовал примеру программы Apache дал нам здесь http://avro.apache.org/docs/1.7.6/mr.html Но я продолжаю сталкиваться с этим исключением jav…
03 фев '15 в 14:29
1
ответ
Avro Map Reduce - AvroInputFormat не найдена ошибка
Это то, что я понял до сих пор, читая из разных источников в Интернете. Avro mapred и Avro не являются частью CDH4 (Распределение Cloudera), и я должен установить его вручную, используя HADOOP_CLASSPATH=avro.jar:avro-mapred.jar Я сделал это, и когда…
26 дек '13 в 13:45
2
ответа
Обрабатывать вложенную запись Avro, когда единица равна нулю
У меня есть вопрос о вложенных записях Avro. На самом деле, я конвертирую файл Json в файл Avro. Файл Json анализируется с использованием Jackson. Дело в том: схема Avro содержит все возможные поля (включая вложенные), которые может содержать Json, …
16 окт '17 в 17:13
1
ответ
Чтение бинарного авро у свиньи
Я отправляю двоичный объект в HDFS, и у меня есть Flume Agent и настройка приемника выглядит следующим образом a1.sinks.k1.type = hdfs a1.sinks.k1.channel = c1 a1.sinks.k1.hdfs.path = /user/%y-%m-%d/%H%M/%S a1.sinks.k1.hdfs.filePrefix = events- a1.s…
08 янв '15 в 00:56
1
ответ
Сбой задания искры из-за ClosedChannelException (DFSOutputStream.checkClosed)
У меня есть приложение искры. Я храню rdd на hdfs используя saveAsNewAPIHadoopDataset, используя AvroKeyOutputFormat, Для больших RDD иногда я получаю так много ClosedChannelException что приложение, наконец, прерывается. Я где-то читал эту настройк…
09 июн '16 в 17:52
1
ответ
Значительно низкая производительность Apache Avro в Python, разные результаты при кодировании сообщений и файлов
Итак, следуя ответу здесь: закодировать объект с помощью Avro в байтовый массив в Python. Я могу отправлять сообщения через ZeroMQ, но производительность крайне низкая. Этого следует ожидать, так как реализация Avro Python - это чистый Python, и мы …
18 ноя '15 в 19:14
1
ответ
Загрузка Avro Data в BigQuery через командную строку?
Я создал таблицу avro-hive и загрузил данные в таблицу avro из другой таблицы с помощью команды hive insert-overwrite. Я могу видеть данные в таблице avro-hive, но когда я пытаюсь загрузить их в таблицу bigQuery, выдает ошибку, Схема таблицы:- CREAT…
27 дек '17 в 08:13
1
ответ
Есть ли способ реализовать map<string, map <string, list <string >>> в protobuf 3?
Я пытался это, но есть проблемы с областью message DataCollectionMessage { message subData { message SubDataList { repeated string data = 1; } map<string, subData> parameters = 1; } map<string,SubDataList> parameters =1; } Здесь SubDataL…
24 авг '17 в 04:15
0
ответов
Avro AvroMultipleOutputs part-r-00000: файл не открыт для записи исключения
Я написал MapReduce Job с Avro 1.7.4 на Hadoop 2.3.0. На первом этапе я написал все результаты Avro в файле AvroSequenceFile. Все работало хорошо без проблем. Затем я попытался использовать класс AvroMultipleOutputs, чтобы записать результаты в разн…
04 май '14 в 06:31
2
ответа
Преобразовать org.apache.avro.generic.GenericRecord в org.apache.spark.sql.Row
У меня есть список org.apache.avro.generic.GenericRecord, avro schemaиспользуя это нам нужно создать dataframe с помощью SQLContext API, для создания dataframe это нужно RDD из org.apache.spark.sql.Row а также avro schema, Необходимым условием для с…
13 июн '17 в 10:13