Описание тега apache-hudi
1
ответ
Пример приложения Hudi Pyspark
Нужна помощь в настройке Hudi с Pyspark на Pycharm или в любой IDE. Я хочу разработать образец приложения Hudi-Pyspark, а не запускать его в Pyspark Shell.
05 сен '20 в 18:39
0
ответов
Совместимость Apache hudi и Hadoop
Поддерживает ли Apache Hudi версии Hadoop 3.1 и Spark 2.3? Мне что-то непонятно, глядя на примечания к выпуску. https://cwiki.apache.org/confluence/display/HUDI/FAQ https://issues.apache.org/jira/browse/HUDI-259
07 июл '20 в 11:22
0
ответов
Ошибка при включении просмотра согласованности EMRFS вместе с Hudi
Среда: согласованность EMRFS включена в кластере EMR (5.29.0), а KMS включен как для Dynamodb, так и для s3 Мы исследуем Hudi для вставки и upsert операций. При вставке данных в таблицу Hudi Partitioned мы получаем ошибку, указанную ниже (когда созд…
23 июл '20 в 13:28
1
ответ
Ошибка при запуске Apache Hudi deltastreamer
Я пытаюсь запустить Hudi deltastreamer на AWS EMR. Выполнил шаги в этом блоге. https://cwiki.apache.org/confluence/pages/viewrecentblogposts.action?key=HUDI Но когда я запускаю следующую искру, появляется ошибка: Exception in thread "main" org.apach…
31 янв '20 в 18:02
1
ответ
presto с hudi - выберите * из таблицы
У меня есть паркетная запись, созданная с помощью hudi из потока искрового кинезиса и сохраненная в S3. На основе этой записи создается связующая таблица AWS. Я обновляю тип InputRecord наorg.apache.hudi.hadoop.realtime.HoodieParquetRealtimeInputFor…
11 фев '20 в 21:56
1
ответ
Apache Hudi бросает исключение Dataset not found при сохранении в S3
Я пытаюсь загрузить простой фреймворк в качестве набора данных Hudi в S3, и у меня возникают проблемы с этим. Я новичок в Apache Hudi, и я пытаюсь загрузить данные, запустив код локально на моем компьютере с Windows. Все зависимости Maven, которые я…
16 сен '19 в 09:16
2
ответа
Разметка Apache Hudi в произвольном формате
В настоящее время я делаю POC на Apache Hudi с искрой (scala). У меня возникла проблема при сохранении фрейма данных с разделением. Худи сохраняет фрейм данных с path/valueOfPartitionCol1/valueOfPartitionCol2....используя свойство PARTITIONPATH_FIEL…
16 дек '19 в 15:25
1
ответ
Потоковая передача Spark - вызвано: org.apache.parquet.io.ParquetDecodingException: не удается прочитать значение 1 в блоке 0 в файле
Я использую искру для записи моих данных json в s3. Однако я продолжаю получать ошибку ниже. Для обновлений мы используем apache hudi. Это происходит только с некоторыми данными, все остальное работает нормально. Caused by: org.apache.parquet.io.Par…
26 дек '19 в 22:55
1
ответ
Идентификатор фиксации Apache Hudi для текущего приема
Как получить текущий идентификатор фиксации приема. Я знаю, что метод HoodieDataSourceHelpers.latestCommit может использоваться для поиска последней фиксации. Но что произойдет, если будет одновременная запись в другом потоке. мне нужно найти каждый…
29 май '20 в 16:18
0
ответов
Hudi Создание небольших файлов размером 0kb в базовом пути при использовании Spark Structured Streaming
val query = newDf.coalesce(1).writeStream. outputMode("append").format("hudi") .option(DataSourceWriteOptions.STORAGE_TYPE_OPT_KEY, DataSourceWriteOptions.COW_STORAGE_TYPE_OPT_VAL) .option("hoodie.datasource.write.recordkey.field", "value,score") .o…
09 июн '20 в 15:29
2
ответа
Использование Apache Hudi с Python / Pyspark
Кто-нибудь использовал Apache Hudi в среде Pyspark? Если возможно, доступны ли образцы кода?
30 мар '20 в 16:25
2
ответа
Более 1 столбца в ключе записи в Spark Hudi Job при создании апсерта
В настоящее время я делаю POC на deltalake, где я наткнулся на фреймворк под названием Apache Hudi. Ниже приведены данные, которые я пытаюсь написать, используя фреймворк apache spark. private val INITIAL_ALBUM_DATA = Seq( Album(800,810, "6 Str…
29 авг '20 в 13:30
0
ответов
Способ извлечения данных таблицы Hudi без столбца первичного ключа
Я делаю PoC на Hudi в своем искровом проекте. Мне нужно прочитать данные из таблицы hudi, где "дата_данных / год" - мой основной столбец. Зачем читать данные из hudi без значения столбца data_date/year? Если да, то как с этим справиться?
02 сен '20 в 09:32
1
ответ
Невозможно написать непаритонированную таблицу с помощью Apache Hudi
Я использую Apache Hudi для записи несекционированной таблицы в AWS S3 и синхронизации ее с кустом. Вот DataSourceWriteOptions использовался. val hudiOptions: Map[String, String] = Map[String, String]( DataSourceWriteOptions.TABLE_TYPE_OPT_KEY ->…
21 окт '20 в 08:39
1
ответ
Apache Hudi deltastreamer выдает исключение в потоке "main" org.apache.hudi.com.beust.jcommander.ParameterException'основной параметр не определен
Версия Apache Hudi 0.6.1,Spark 2.4.6 Ниже приведена стандартная команда spark-submit для Hudi deltastreamer, где она выдается, поскольку не определен основной параметр. Я видел, что указаны все параметры свойств. Благодарим за любую помощь по этой о…
08 сен '20 в 07:37
0
ответов
Как интегрировать задание sqoop в HudiDeltaStreamer?
Мне известно о сохранении импортированных данных задания sqoop в hdfs, затем чтении их через искру, а затем таблицу hudi. Но ^
08 окт '20 в 13:22
0
ответов
Стриминг улья Flink против айсберга / худи / дельты
Есть несколько решений для сбора данных с открытым исходным кодом, которые поддерживают извлечение нефти / кислоты / инкрементного потока, например Iceberg, Hudi, Delta. Я думаю, они сделали то, что хочет потоковая передача улья flink, и даже сделал…
28 ноя '20 в 08:59
0
ответов
Debezium + Schema Registry Avro Schema: почему у меня есть поля "до" и "после" и как использовать их с HudiDeltaStreamer?
У меня есть таблица в PostgreSQL со следующей схемой: Table "public.kc_ds" Column | Type | Collation | Nullable | Default | Storage | Stats target | Description --------+-----------------------+-----------+----------+----------------------…
02 дек '20 в 15:30
0
ответов
Ливий выпуск на EMR-Hudi с S3
Я пытаюсь отправить сценарий hudi на EMR, который отлично работает при прямом запуске на EMR. В моем сценарии Hudi Spark я использую S3 в качестве целевой файловой системы. Каким-то образом при отправке через Livy.. Я получаю ошибку, например, не мо…
22 сен '20 в 12:09
1
ответ
Эволюция схемы Apache Hudi
Может ли кто-нибудь поделиться правильным подходом к обработке изменений схемы в apache hudi? Пример: переименование столбца с col1 на col2 или изменение типа данных с long на int. (Писпарк)
05 окт '20 в 11:20