Описание тега spark-avro
A library for reading and writing Avro data from Spark SQL.
2
ответа
Преобразовать org.apache.avro.generic.GenericRecord в org.apache.spark.sql.Row
У меня есть список org.apache.avro.generic.GenericRecord, avro schemaиспользуя это нам нужно создать dataframe с помощью SQLContext API, для создания dataframe это нужно RDD из org.apache.spark.sql.Row а также avro schema, Необходимым условием для с…
13 июн '17 в 10:13
1
ответ
Преобразование StructType в Avro Schema возвращает тип как Union при использовании блоков данных spark-avro
Я использую блоки данных spark-avro для преобразования схемы данных в схему avro. Возвращенная схема avro не может иметь значение по умолчанию. Это вызывает проблемы, когда я пытаюсь создать общую запись из схемы. Может ли кто-нибудь помочь с правил…
04 дек '18 в 12:12
0
ответов
Используйте AvroBigQueryInputFormat для чтения из BigQuery в Pyspark
Я использовал этот учебник, чтобы получить данные из Bigquery в pyspark: table_data = sc.newAPIHadoopRDD( 'com.google.cloud.hadoop.io.bigquery.JsonTextBigQueryInputFormat', 'org.apache.hadoop.io.LongWritable', 'com.google.gson.JsonObject', conf=conf…
28 авг '18 в 14:49
0
ответов
Обработка префикса пространства имен при сохранении данных в Avro с использованием Spark
Я пытаюсь преобразовать данные XML в Avro с помощью Spark и документов XML, которые у меня есть, имеют различные пространства имен и представляют собой сложные типы с глубоко вложенными структурами. При попытке сохранить данные в формате Avro я полу…
11 июл '18 в 20:57
0
ответов
Как добавить псевдонимы в avro, которые поддерживают следующие
Я хочу создать объект avro из json файл в java, Проблема в ключах в json Файл написан как эта "животная высота". И поскольку в avro '-' это незаконно, я создаю поле с именем, следующим за "animal_height". Как я могу решить эту проблему без изменения…
07 авг '18 в 11:46
1
ответ
Перенос данных из HDFS/S3 в локальную ФС и загрузка в Java
У меня есть задание Spark, работающее в кластере EMr, который записывает DataFrame в HDFS (который затем s3-dist-cpдолжен S3). Размер данных невелик (2 ГБ при сохранении как parquet). Эти данные в S3 затем копируются в локальную файловую систему (эк…
19 июл '18 в 23:49
1
ответ
Spark Чтение нескольких путей с автоматическим обнаружением разделов
Я пытаюсь прочитать некоторые файлы avro в DataFrame из нескольких путей. Допустим, мой путь "s3a://bucket_name/path/to/file/year=18/month=11/day=01"По этому пути у меня есть еще два раздела, скажем country=XX/region=XX Я хочу читать несколько дат о…
03 дек '18 в 08:17
0
ответов
Разбить большой файл AVRO на меньшие файлы AVRO
Есть ли у нас библиотека для разделения большого файла AVRO [1 ГБ] на файлы AVRO меньшего размера настраиваемого размера? Примечание: * Не должно быть потери данных. * Схема исходного и выходного файлов AVRO должна быть одинаковой Заранее спасибо!!!
04 дек '17 в 09:52
1
ответ
Как установить логический тип в схеме spark-avro 2.4?
Мы читаем информацию о метках времени из файлов avro в нашем приложении. Я нахожусь в процессе тестирования обновления от Spark 2.3.1 до Spark 2.4, которое включает в себя недавно встроенную интеграцию spark-avro. Однако я не могу понять, как сказат…
06 фев '19 в 18:14
1
ответ
Начальная загрузка спарк-авро банку в кластер Amazon EMR
Я хочу прочитать файлы avro, расположенные в Amazon S3, из блокнота Zeppelin. Я понимаю, что у Databricks есть замечательный пакет для этого spark-avro, Какие шаги мне нужно предпринять, чтобы загрузить этот jar -файл в мой кластер и заставить его р…
01 авг '16 в 16:22
1
ответ
Как преобразовать датафрейм в avro, используя схему?
Как преобразовать фрейм данных в формат Avro, используя схему, указанную пользователем?
18 окт '17 в 07:56
0
ответов
Чтение сообщений Avro от Kafka с использованием структурированной потоковой передачи в Spark 2.1
Я следил за сообщением @Ralph Gonzalez в этой теме, читая сообщения Avro от Kafka с использованием структурированного потокового вещания в Spark 2.1, но получаю следующую ошибку. org.apache.avro.AvroRuntimeException: Malformed data. Length is negati…
11 май '17 в 06:00
2
ответа
Как запросить наборы данных в формате avro?
Это работает с паркетом val sqlDF = spark.sql("SELECT DISTINCT field FROM parquet.`file-path'") Я пытался сделать то же самое с Avro, но он продолжает выдавать ошибку, даже если я использую com.databricks.spark.avro, Когда я выполняю следующий запро…
26 сен '17 в 19:20
2
ответа
Spark DataFrame: Как указать схему при записи как Avro
Я хочу написать DataFrame в формате Avro, используя предоставленную схему Avro, а не автоматически сгенерированную схему Spark. Как я могу сказать Spark использовать мою собственную схему при записи?
21 фев '18 в 00:35
1
ответ
Как прочитать сообщение Avro Encoded kafka в scala, не зная схему avro?
Мне нужно написать клиент Scala или Java для чтения сообщения Kafka из темы, сообщения которой закодированы в Avro и схема динамически изменяется. Пожалуйста, предложите решение для чтения этих сообщений без записи в виде файла Avro.
27 дек '17 в 06:47
0
ответов
Чтение / доступ к простому двойному массиву из паркета с использованием Spark с использованием Java API
У меня есть файл Parquet, созданный с использованием parquet-avro библиотека, в которой одно из полей имеет примитивный двойной массив, созданный с использованием следующего типа схемы: Schema.createArray(Schema.create(Schema.Type.DOUBLE)) Я прочита…
16 июл '18 в 03:45
1
ответ
Как сопоставить один столбец с другими столбцами в файле avro?
Я использую Spark 2.1.1 и Scala 2.11.8 Этот вопрос является продолжением одного из моих предыдущих вопросов: Как определить пустые поля в CSV-файле? Изменение заключается в том, что вместо чтения данных из файла CSV я теперь читаю данные из файла av…
05 июл '17 в 10:28
0
ответов
StackruError при загрузке файла Avro для создания Dataframe
Я сталкиваюсь с этой ошибкой при попытке загрузить файл Avro (размер 134 КБ). Мои зависимости pom приведены ниже. Я создаю это Avro из сообщения protobuf, которое работает нормально. пом зависимости: <dependency> <groupId>org.apache.spar…
31 янв '17 в 08:06
1
ответ
Spark - Avro читает схему, но DataFrame пуст
Я использую Gobblin для периодического извлечения реляционных данных из Oracle, преобразовать его в avro и опубликовать его HDFS Моя структура каталогов DFS выглядит следующим образом -tables | -t1 | -2016080712345 | -f1.avro | -2016070714345 | -f2.…
07 июл '16 в 17:05
0
ответов
Работа с Java и Spark Sql для чтения формата AVRO
Как разрешить исключение, которое я получаю при запуске в eclipse ( noclassdeffounderror и classnotfoundexception) . Пробовал с другой версией блоков данных maven, но все равно получал ту же проблему. AVRO файл присутствует в моей локальной системе.…
14 дек '17 в 20:55