Описание тега spark-avro

A library for reading and writing Avro data from Spark SQL.
2 ответа

Преобразовать org.apache.avro.generic.GenericRecord в org.apache.spark.sql.Row

У меня есть список org.apache.avro.generic.GenericRecord, avro schemaиспользуя это нам нужно создать dataframe с помощью SQLContext API, для создания dataframe это нужно RDD из org.apache.spark.sql.Row а также avro schema, Необходимым условием для с…
1 ответ

Преобразование StructType в Avro Schema возвращает тип как Union при использовании блоков данных spark-avro

Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не может иметь значение по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правил…
0 ответов

Используйте AvroBigQueryInputFormat для чтения из BigQuery в Pyspark

Я использовал этот учебник, чтобы получить данные из Bigquery в pyspark: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.JsonObject', conf=conf…
28 авг '18 в 14:49
0 ответов

Обработка префикса пространства имен при сохранении данных в Avro с использованием Spark

Я пытаюсь преобразовать данные XML в Avro с помощью Spark и документов XML, которые у меня есть, имеют различные пространства имен и представляют собой сложные типы с глубоко вложенными структурами. При попытке сохранить данные в формате Avro я полу…
11 июл '18 в 20:57
0 ответов

Как добавить псевдонимы в avro, которые поддерживают следующие

Я хочу создать объект avro из json файл в java, Проблема в ключах в json Файл написан как эта "животная высота". И поскольку в avro '-' это незаконно, я создаю поле с именем, следующим за "animal_height". Как я могу решить эту проблему без изменения…
07 авг '18 в 11:46
1 ответ

Перенос данных из HDFS/S3 в локальную ФС и загрузка в Java

У меня есть задание Spark, работающее в кластере EMr, который записывает DataFrame в HDFS (который затем s3-dist-cpдолжен S3). Размер данных невелик (2 ГБ при сохранении как parquet). Эти данные в S3 затем копируются в локальную файловую систему (эк…
1 ответ

Spark Чтение нескольких путей с автоматическим обнаружением разделов

Я пытаюсь прочитать некоторые файлы avro в DataFrame из нескольких путей. Допустим, мой путь "s3a://bucket_name/path/to/file/year=18/month=11/day=01"По этому пути у меня есть еще два раздела, скажем country=XX/region=XX Я хочу читать несколько дат о…
03 дек '18 в 08:17
0 ответов

Разбить большой файл AVRO на меньшие файлы AVRO

Есть ли у нас библиотека для разделения большого файла AVRO [1 ГБ] на файлы AVRO меньшего размера настраиваемого размера? Примечание: * Не должно быть потери данных. * Схема исходного и выходного файлов AVRO должна быть одинаковой Заранее спасибо!!!
04 дек '17 в 09:52
1 ответ

Как установить логический тип в схеме spark-avro 2.4?

Мы читаем информацию о метках времени из файлов avro в нашем приложении. Я нахожусь в процессе тестирования обновления от Spark 2.3.1 до Spark 2.4, которое включает в себя недавно встроенную интеграцию spark-avro. Однако я не могу понять, как сказат…
06 фев '19 в 18:14
1 ответ

Начальная загрузка спарк-авро банку в кластер Amazon EMR

Я хочу прочитать файлы avro, расположенные в Amazon S3, из блокнота Zeppelin. Я понимаю, что у Databricks есть замечательный пакет для этого spark-avro, Какие шаги мне нужно предпринять, чтобы загрузить этот jar -файл в мой кластер и заставить его р…
01 авг '16 в 16:22
1 ответ

Как преобразовать датафрейм в avro, используя схему?

Как преобразовать фрейм данных в формат Avro, используя схему, указанную пользователем?
18 окт '17 в 07:56
0 ответов

Чтение сообщений Avro от Kafka с использованием структурированной потоковой передачи в Spark 2.1

Я следил за сообщением @Ralph Gonzalez в этой теме, читая сообщения Avro от Kafka с использованием структурированного потокового вещания в Spark 2.1, но получаю следующую ошибку. org.apache.avro.AvroRuntimeException: Malformed data. Length is negati…
2 ответа

Как запросить наборы данных в формате avro?

Это работает с паркетом val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") Я пытался сделать то же самое с Avro, но он продолжает выдавать ошибку, даже если я использую com.databricks.spark.avro, Когда я выполняю следующий запро…
26 сен '17 в 19:20
2 ответа

Spark DataFrame: Как указать схему при записи как Avro

Я хочу написать DataFrame в формате Avro, используя предоставленную схему Avro, а не автоматически сгенерированную схему Spark. Как я могу сказать Spark использовать мою собственную схему при записи?
21 фев '18 в 00:35
1 ответ

Как прочитать сообщение Avro Encoded kafka в scala, не зная схему avro?

Мне нужно написать клиент Scala или Java для чтения сообщения Kafka из темы, сообщения которой закодированы в Avro и схема динамически изменяется. Пожалуйста, предложите решение для чтения этих сообщений без записи в виде файла Avro.
27 дек '17 в 06:47
0 ответов

Чтение / доступ к простому двойному массиву из паркета с использованием Spark с использованием Java API

У меня есть файл Parquet, созданный с использованием parquet-avro библиотека, в которой одно из полей имеет примитивный двойной массив, созданный с использованием следующего типа схемы: Schema.createArray(Schema.create(Schema.Type.DOUBLE)) Я прочита…
1 ответ

Как сопоставить один столбец с другими столбцами в файле avro?

Я использую Spark 2.1.1 и Scala 2.11.8 Этот вопрос является продолжением одного из моих предыдущих вопросов: Как определить пустые поля в CSV-файле? Изменение заключается в том, что вместо чтения данных из файла CSV я теперь читаю данные из файла av…
05 июл '17 в 10:28
0 ответов

StackruError при загрузке файла Avro для создания Dataframe

Я сталкиваюсь с этой ошибкой при попытке загрузить файл Avro (размер 134 КБ). Мои зависимости pom приведены ниже. Я создаю это Avro из сообщения protobuf, которое работает нормально. пом зависимости: <dependency> <groupId>org.apache.spar…
31 янв '17 в 08:06
1 ответ

Spark - Avro читает схему, но DataFrame пуст

Я использую Gobblin для периодического извлечения реляционных данных из Oracle, преобразовать его в avro и опубликовать его HDFS Моя структура каталогов DFS выглядит следующим образом -tables | -t1 | -2016080712345 | -f1.avro | -2016070714345 | -f2.…
0 ответов

Работа с Java и Spark Sql для чтения формата AVRO

Как разрешить исключение, которое я получаю при запуске в eclipse ( noclassdeffounderror и classnotfoundexception) . Пробовал с другой версией блоков данных maven, но все равно получал ту же проблему. AVRO файл присутствует в моей локальной системе.…