Описание тега apache-hudi

1 ответ

Пример приложения Hudi Pyspark

Нужна помощь в настройке Hudi с Pyspark на Pycharm или в любой IDE. Я хочу разработать образец приложения Hudi-Pyspark, а не запускать его в Pyspark Shell.
05 сен '20 в 18:39
0 ответов

Совместимость Apache hudi и Hadoop

Поддерживает ли Apache Hudi версии Hadoop 3.1 и Spark 2.3? Мне что-то непонятно, глядя на примечания к выпуску. https://cwiki.apache.org/confluence/display/HUDI/FAQ https://issues.apache.org/jira/browse/HUDI-259
07 июл '20 в 11:22
0 ответов

Ошибка при включении просмотра согласованности EMRFS вместе с Hudi

Среда: согласованность EMRFS включена в кластере EMR (5.29.0), а KMS включен как для Dynamodb, так и для s3 Мы исследуем Hudi для вставки и upsert операций. При вставке данных в таблицу Hudi Partitioned мы получаем ошибку, указанную ниже (когда созд…
23 июл '20 в 13:28
1 ответ

Ошибка при запуске Apache Hudi deltastreamer

Я пытаюсь запустить Hudi deltastreamer на AWS EMR. Выполнил шаги в этом блоге. https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI Но когда я запускаю следующую искру, появляется ошибка: Exception in thread "main" org.apach…
1 ответ

presto с hudi - выберите * из таблицы

У меня есть паркетная запись, созданная с помощью hudi из потока искрового кинезиса и сохраненная в S3. На основе этой записи создается связующая таблица AWS. Я обновляю тип InputRecord наorg.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFor…
11 фев '20 в 21:56
1 ответ

Apache Hudi бросает исключение Dataset not found при сохранении в S3

Я пытаюсь загрузить простой фреймворк в качестве набора данных Hudi в S3, и у меня возникают проблемы с этим. Я новичок в Apache Hudi, и я пытаюсь загрузить данные, запустив код локально на моем компьютере с Windows. Все зависимости Maven, которые я…
16 сен '19 в 09:16
2 ответа

Разметка Apache Hudi в произвольном формате

В настоящее время я делаю POC на Apache Hudi с искрой (scala). У меня возникла проблема при сохранении фрейма данных с разделением. Худи сохраняет фрейм данных с path/valueOfPartitionCol1/valueOfPartitionCol2....используя свойство PARTITIONPATH_FIEL…
16 дек '19 в 15:25
1 ответ

Потоковая передача Spark - вызвано: org.apache.parquet.io.ParquetDecodingException: не удается прочитать значение 1 в блоке 0 в файле

Я использую искру для записи моих данных json в s3. Однако я продолжаю получать ошибку ниже. Для обновлений мы используем apache hudi. Это происходит только с некоторыми данными, все остальное работает нормально. Caused by: org.apache.parquet.io.Par…
1 ответ

Идентификатор фиксации Apache Hudi для текущего приема

Как получить текущий идентификатор фиксации приема. Я знаю, что метод HoodieDataSourceHelpers.latestCommit может использоваться для поиска последней фиксации. Но что произойдет, если будет одновременная запись в другом потоке. мне нужно найти каждый…
29 май '20 в 16:18
0 ответов

Hudi Создание небольших файлов размером 0kb в базовом пути при использовании Spark Structured Streaming

val query = newDf.coalesce(1).writeStream. outputMode("append").format("hudi") .option(DataSourceWriteOptions.STORAGE_TYPE_OPT_KEY, DataSourceWriteOptions.COW_STORAGE_TYPE_OPT_VAL) .option("hoodie.datasource.write.recordkey.field", "value,score") .o…
2 ответа

Использование Apache Hudi с Python / Pyspark

Кто-нибудь использовал Apache Hudi в среде Pyspark? Если возможно, доступны ли образцы кода?
30 мар '20 в 16:25
2 ответа

Более 1 столбца в ключе записи в Spark Hudi Job при создании апсерта

В настоящее время я делаю POC на deltalake, где я наткнулся на фреймворк под названием Apache Hudi. Ниже приведены данные, которые я пытаюсь написать, используя фреймворк apache spark. private val INITIAL_ALBUM_DATA = Seq( Album(800,810, "6 Str…
29 авг '20 в 13:30
0 ответов

Способ извлечения данных таблицы Hudi без столбца первичного ключа

Я делаю PoC на Hudi в своем искровом проекте. Мне нужно прочитать данные из таблицы hudi, где "дата_данных / год" - мой основной столбец. Зачем читать данные из hudi без значения столбца data_date/year? Если да, то как с этим справиться?
1 ответ

Невозможно написать непаритонированную таблицу с помощью Apache Hudi

Я использую Apache Hudi для записи несекционированной таблицы в AWS S3 и синхронизации ее с кустом. Вот DataSourceWriteOptions использовался. val hudiOptions: Map[String, String] = Map[String, String]( DataSourceWriteOptions.TABLE_TYPE_OPT_KEY ->…
21 окт '20 в 08:39
1 ответ

Apache Hudi deltastreamer выдает исключение в потоке "main" org.apache.hudi.com.beust.jcommander.ParameterException'основной параметр не определен

Версия Apache Hudi 0.6.1,Spark 2.4.6 Ниже приведена стандартная команда spark-submit для Hudi deltastreamer, где она выдается, поскольку не определен основной параметр. Я видел, что указаны все параметры свойств. Благодарим за любую помощь по этой о…
08 сен '20 в 07:37
0 ответов

Как интегрировать задание sqoop в HudiDeltaStreamer?

Мне известно о сохранении импортированных данных задания sqoop в hdfs, затем чтении их через искру, а затем таблицу hudi. Но ^
08 окт '20 в 13:22
0 ответов

Стриминг улья Flink против айсберга / худи / дельты

Есть несколько решений для сбора данных с открытым исходным кодом, которые поддерживают извлечение нефти / кислоты / инкрементного потока, например Iceberg, Hudi, Delta. Я думаю, они сделали то, что хочет потоковая передача улья flink, и даже сделал…
28 ноя '20 в 08:59
0 ответов

Debezium + Schema Registry Avro Schema: почему у меня есть поля "до" и "после" и как использовать их с HudiDeltaStreamer?

У меня есть таблица в PostgreSQL со следующей схемой: Table "public.kc_ds" Column | Type | Collation | Nullable | Default | Storage | Stats target | Description --------+-----------------------+-----------+----------+----------------------…
0 ответов

Ливий выпуск на EMR-Hudi с S3

Я пытаюсь отправить сценарий hudi на EMR, который отлично работает при прямом запуске на EMR. В моем сценарии Hudi Spark я использую S3 в качестве целевой файловой системы. Каким-то образом при отправке через Livy.. Я получаю ошибку, например, не мо…
22 сен '20 в 12:09
1 ответ

Эволюция схемы Apache Hudi

Может ли кто-нибудь поделиться правильным подходом к обработке изменений схемы в apache hudi? Пример: переименование столбца с col1 на col2 или изменение типа данных с long на int. (Писпарк)
05 окт '20 в 11:20