Описание тега iceberg

1 ответ

FlinkSink от Iceberg не обновляет файл метаданных при потоковой записи

Я пытался использовать FlinkSink от Iceberg для потребления данных и записи в сток. Мне удалось получить данные из кинезиса, и я вижу, что данные записываются в соответствующий раздел. Однако я не вижу metadata.jsonобновляется. Без этого я не могу з…
12 янв '21 в 00:48
1 ответ

Записать поток данных Flink в таблицу Iceberg :NoSuchMethodError: org.apache.parquet.schema.Types$PrimitiveBuilder.as

Я пытаюсь записать поток данных flink в айсберг-таблицу, как показано ниже:''' val kafkaStream = new KafkaDataSource(parameter, new PacketSchema).getStream(env) val dataStream = kafkaStream.flatMap(new NullPacketFilter).map(FilteredPacket.from(_).to…
19 фев '21 в 04:33
0 ответов

Ошибка подключения Hive Metastore во время пакетной потоковой передачи в Spark с использованием apache Iceberg

Ниже приведен код, который я создал для представления TempStreamingDeviceData. Но я получаю исключение, поскольку не могу подключиться к хранилищу метаданных Hive. Я также настроил каталог искр для apache Iceberg. def writeStreaming(batchDF: DataFra…
14 фев '21 в 20:49
1 ответ

flink: Прервано при ожидании подтверждения данных по конвейеру

Я делал POC flink CDC + iceberg. Я следовал этому руководству по debezium, чтобы отправить cdc в kafka - https://debezium.io/documentation/reference/1.4/tutorial.html . Моя работа flink работала нормально и записывала данные в таблицу улья для встав…
26 мар '21 в 15:09
0 ответов

почему айсберг не поддерживается в импале 3.4 [закрыто]

Я вижу идентификатор jira для поддержки айсберга в impala3.4. Но его нет. Кто-нибудь знает причину? Идентификатор jira: https://issues.apache.org/jira/browse/IMPALA-9741.
07 апр '21 в 13:28
0 ответов

'java.lang.VerifyError: карта стека не совпадает с картой в обработчике исключения 70' при использовании sql-клиента flink с айсбергом и ульем

Согласно https://iceberg.apache.org/flink/ , я использую sql-клиент flink с опцией -j: bin/sql-client.sh embedded -j lib/flink-sql-connector-hive-2.3.6_2.11-1.11.3.jar -j lib/iceberg-flink-runtime-0.11.0.jar shell и соответствует следующему исключен…
07 апр '21 в 09:21
2 ответа

Как разрушить структуру в SQL

У меня есть структура в таблице ( Iceberg Database format), и я хотел бы расширить все дочерние элементы структуры. Обычный запрос будет выглядеть так: SELECT base.el1, base.el2, base.el3 FROM myTable Вместо этого я хотел бы иметь следующее утвержде…
07 апр '21 в 20:14
1 ответ

Apache Spark UDF: доступ к айсбергу

Я пытаюсь получить доступ к таблице Iceberg из UDF Spark Java, но получаю сообщение об ошибке при запуске первого оператора SQL в UDF. Вот как я создаю сеанс Spark в UDF: SparkSession spark = SparkSession.builder() .master(...) .appName("app") .conf…
3 ответа

Как выполнить оператор слияния Spark SQL для таблицы Iceberg в Databricks?

Я пытаюсь настроить Apache Iceberg в нашей среде Databricks, и при выполнении инструкции в Spark SQL возникает ошибка. Этот код: CREATE TABLE iceberg.db.table (id bigint, data string) USING iceberg; INSERT INTO iceberg.db.table VALUES (1, 'a'), (2, …
1 ответ

Iceberg GCS и согласованность

Поддерживает ли айсберг запись данных в GCS? Поскольку для атомарной работы айсберга согласно https://iceberg.apache.org/java-api-quickstart/, GCS должен поддерживать атомарное переименование, однако из https://cloud.google.com/storage/docs/gsutil/ …
1 ответ

Невозможно записать данные в таблицу с помощью Apache Iceberg с помощью Spark

Я новичок в Apache Iceberg. Я хочу выполнять операции чтения и записи с помощью Apache Iceberg. Я использую Spark 3.0.0. код: System.setProperty("hadoop.home.dir","C:\\hadoop" ) val conf = new SparkConf() conf.set("spark.sql.extensions","org.apache.…
11 июл '21 в 17:17
0 ответов

fink+iceberg , как обновить данные в айсберге

2021-07-13T11: 28: 31.187430109+ 08: 00 java.lang.UnsupportedOperationException: обнаружена операция перезаписи, не может поддерживать добавочные данные в моментальных снимках (6836035541320694960, 2925937061867801870) 2021-07-13T11: 28: 31.18743939…
13 июл '21 в 06:37
1 ответ

Команда SparkSQL DELETE не удаляет ни одной строки в Apache Iceberg, не так ли?

Я использую Spark SQL 3.0 с scala_2.12. Я вставляю данные в таблицу айсберга и успешно читаю данные из таблицы. Когда я пытался удалить одну неправильную запись из таблицы с помощью искрового SQL, журнал показывает исключение. Проблема 1444 apache i…
06 дек '20 в 11:01
0 ответов

Проблема с операцией обновления и удаления Apache Hudi в файле Parquet S3

Здесь я пытаюсь смоделировать обновления и удаления в наборе данных Hudi и хочу, чтобы состояние отражалось в таблице Athena. Мы используем сервисы EMR, S3 и Athena AWS. Попытка обновления записи с помощью объекта вывода withdrawalID_mutate = 103824…
1 ответ

Apache Iceberg для индексации AWS S3

У меня есть пример использования, когда на S3 хранится около 100 миллионов файлов. У меня есть файл манифеста отдельно для расположения этих файлов на основе моей модели данных. Я хочу понять, подходит ли Apache Iceberg для индексирования моих файло…
13 авг '21 в 12:46
2 ответа

Как записать данные в таблицы Apache Iceberg с помощью Spark SQL?

Я пытаюсь ознакомиться с Apache Iceberg, и у меня возникли проблемы с пониманием того, как записывать некоторые внешние данные в таблицу с помощью Spark SQL. У меня есть файл one.csv , который находится в каталоге / data мой каталог Iceberg настроен…
09 дек '20 в 21:21
1 ответ

Как выбрать ключи разделов для таблиц Apache Iceberg

У меня есть несколько ульев-складов. Данные хранятся в файлах паркета в Amazon S3. Некоторые таблицы содержат ТБ данных. В настоящее время в улье большинство таблиц разбиты на разделы по месяцу и году, которые сохраняются в основном в виде строки. Д…
03 дек '21 в 11:50
0 ответов

java.lang.NoSuchMethodError: org.apache.parquet.schema.Types$PrimitiveBuilder

org.apache.flink.runtime.JobException: восстановление подавляется с помощью NoRestartBackoffTimeStrategy в org.apache.flink.runtime.executiongraph.failover.flip1.ExecutionFailureHandler.handleFailure(ExecutionFailureHandler.java:118) в orcutionFailu…
17 дек '21 в 10:47
0 ответов

Афина Айсберг медленно на пустой стол

Я смотрю на новые таблицы айсбергов для AWS Athena. Я надеюсь перенести свое озеро данных в Iceberg, чтобы значительно упростить управление разделами таблиц и, надеюсь, повысить производительность. Я создал тестовую таблицу айсбергов с двумя полями:…
27 дек '21 в 17:30
0 ответов

Не удалось создать таблицу с помощью API Java Iceberg

Я пытаюсь создать таблицу айсберга, используя хранилище метаданных улья, s3 с Java Api и Spark. Не нашел ни работающего PoC, ни репозитория на github. Код, который я написал, получен из нескольких источников. Мой код: SparkConf conf = new SparkConf(…
01 янв '22 в 00:17