Описание тега apache-hudi

Описание тега Вопросы с тегом

1 ответ

Пример приложения Hudi Pyspark

Нужна помощь в настройке Hudi с Pyspark на Pycharm или в любой IDE. Я хочу разработать образец приложения Hudi-Pyspark, а не запускать его в Pyspark Shell.

pyspark apache-hudi

05 сен '20 в 18:39

0 ответов

Совместимость Apache hudi и Hadoop

Поддерживает ли Apache Hudi версии Hadoop 3.1 и Spark 2.3? Мне что-то непонятно, глядя на примечания к выпуску. https://cwiki.apache.org/confluence/display/HUDI/FAQ https://issues.apache.org/jira/browse/HUDI-259

hadoop pyspark apache-hudi

07 июл '20 в 11:22

0 ответов

Ошибка при включении просмотра согласованности EMRFS вместе с Hudi

Среда: согласованность EMRFS включена в кластере EMR (5.29.0), а KMS включен как для Dynamodb, так и для s3 Мы исследуем Hudi для вставки и upsert операций. При вставке данных в таблицу Hudi Partitioned мы получаем ошибку, указанную ниже (когда созд…

apache-spark pyspark amazon-emr apache-hudi

23 июл '20 в 13:28

1 ответ

Ошибка при запуске Apache Hudi deltastreamer

Я пытаюсь запустить Hudi deltastreamer на AWS EMR. Выполнил шаги в этом блоге. https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI Но когда я запускаю следующую искру, появляется ошибка: Exception in thread "main" org.apach…

apache-spark spark-streaming parquet apache-hudi

31 янв '20 в 18:02

1 ответ

presto с hudi - выберите * из таблицы

У меня есть паркетная запись, созданная с помощью hudi из потока искрового кинезиса и сохраненная в S3. На основе этой записи создается связующая таблица AWS. Я обновляю тип InputRecord наorg.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFor…

apache-spark aws-glue presto apache-hudi

11 фев '20 в 21:56

1 ответ

Apache Hudi бросает исключение Dataset not found при сохранении в S3

Я пытаюсь загрузить простой фреймворк в качестве набора данных Hudi в S3, и у меня возникают проблемы с этим. Я новичок в Apache Hudi, и я пытаюсь загрузить данные, запустив код локально на моем компьютере с Windows. Все зависимости Maven, которые я…

apache-spark-sql apache-hudi

16 сен '19 в 09:16

2 ответа

Разметка Apache Hudi в произвольном формате

В настоящее время я делаю POC на Apache Hudi с искрой (scala). У меня возникла проблема при сохранении фрейма данных с разделением. Худи сохраняет фрейм данных с path/valueOfPartitionCol1/valueOfPartitionCol2....используя свойство PARTITIONPATH_FIEL…

apache-spark apache-hudi

16 дек '19 в 15:25

1 ответ

Потоковая передача Spark - вызвано: org.apache.parquet.io.ParquetDecodingException: не удается прочитать значение 1 в блоке 0 в файле

Я использую искру для записи моих данных json в s3. Однако я продолжаю получать ошибку ниже. Для обновлений мы используем apache hudi. Это происходит только с некоторыми данными, все остальное работает нормально. Caused by: org.apache.parquet.io.Par…

apache-spark spark-streaming parquet apache-hudi hoodie

26 дек '19 в 22:55

1 ответ

Идентификатор фиксации Apache Hudi для текущего приема

Как получить текущий идентификатор фиксации приема. Я знаю, что метод HoodieDataSourceHelpers.latestCommit может использоваться для поиска последней фиксации. Но что произойдет, если будет одновременная запись в другом потоке. мне нужно найти каждый…

apache-spark apache-hudi

29 май '20 в 16:18

0 ответов

Hudi Создание небольших файлов размером 0kb в базовом пути при использовании Spark Structured Streaming

val query = newDf.coalesce(1).writeStream. outputMode("append").format("hudi") .option(DataSourceWriteOptions.STORAGE_TYPE_OPT_KEY, DataSourceWriteOptions.COW_STORAGE_TYPE_OPT_VAL) .option("hoodie.datasource.write.recordkey.field", "value,score") .o…

apache-spark spark-structured-streaming apache-hudi

09 июн '20 в 15:29

2 ответа

Использование Apache Hudi с Python / Pyspark

Кто-нибудь использовал Apache Hudi в среде Pyspark? Если возможно, доступны ли образцы кода?

pyspark apache-hudi

30 мар '20 в 16:25

2 ответа

Более 1 столбца в ключе записи в Spark Hudi Job при создании апсерта

В настоящее время я делаю POC на deltalake, где я наткнулся на фреймворк под названием Apache Hudi. Ниже приведены данные, которые я пытаюсь написать, используя фреймворк apache spark. private val INITIAL_ALBUM_DATA = Seq( Album(800,810, "6 Str…

apache-spark apache-spark-sql apache-hudi

29 авг '20 в 13:30

0 ответов

Способ извлечения данных таблицы Hudi без столбца первичного ключа

Я делаю PoC на Hudi в своем искровом проекте. Мне нужно прочитать данные из таблицы hudi, где "дата_данных / год" - мой основной столбец. Зачем читать данные из hudi без значения столбца data_date/year? Если да, то как с этим справиться?

apache-spark-sql azure-data-lake apache-hudi

02 сен '20 в 09:32

1 ответ

Невозможно написать непаритонированную таблицу с помощью Apache Hudi

Я использую Apache Hudi для записи несекционированной таблицы в AWS S3 и синхронизации ее с кустом. Вот DataSourceWriteOptions использовался. val hudiOptions: Map[String, String] = Map[String, String]( DataSourceWriteOptions.TABLE_TYPE_OPT_KEY ->…

apache-spark hadoop hive apache-hudi

21 окт '20 в 08:39

1 ответ

Apache Hudi deltastreamer выдает исключение в потоке "main" org.apache.hudi.com.beust.jcommander.ParameterException'основной параметр не определен

Версия Apache Hudi 0.6.1,Spark 2.4.6 Ниже приведена стандартная команда spark-submit для Hudi deltastreamer, где она выдается, поскольку не определен основной параметр. Я видел, что указаны все параметры свойств. Благодарим за любую помощь по этой о…

apache-spark spark-submit apache-hudi

08 сен '20 в 07:37

0 ответов

Как интегрировать задание sqoop в HudiDeltaStreamer?

Мне известно о сохранении импортированных данных задания sqoop в hdfs, затем чтении их через искру, а затем таблицу hudi. Но ^

apache-spark pyspark sqoop apache-hudi sqoop2

08 окт '20 в 13:22

0 ответов

Стриминг улья Flink против айсберга / худи / дельты

Есть несколько решений для сбора данных с открытым исходным кодом, которые поддерживают извлечение нефти / кислоты / инкрементного потока, например Iceberg, Hudi, Delta. Я думаю, они сделали то, что хочет потоковая передача улья flink, и даже сделал…

apache-flink delta apache-hudi

28 ноя '20 в 08:59

0 ответов

Debezium + Schema Registry Avro Schema: почему у меня есть поля "до" и "после" и как использовать их с HudiDeltaStreamer?

apache-kafka apache-kafka-connect confluent-schema-registry debezium apache-hudi

02 дек '20 в 15:30

0 ответов

Ливий выпуск на EMR-Hudi с S3

Я пытаюсь отправить сценарий hudi на EMR, который отлично работает при прямом запуске на EMR. В моем сценарии Hudi Spark я использую S3 в качестве целевой файловой системы. Каким-то образом при отправке через Livy.. Я получаю ошибку, например, не мо…

amazon-s3 amazon-emr livy apache-hudi

22 сен '20 в 12:09

1 ответ

Эволюция схемы Apache Hudi

Может ли кто-нибудь поделиться правильным подходом к обработке изменений схемы в apache hudi? Пример: переименование столбца с col1 на col2 или изменение типа данных с long на int. (Писпарк)

schema apache-hudi

05 окт '20 в 11:20