Описание тега beam-sql

BeamSQL построен на основе Apache Beam Java SDK в качестве реляционного API для унифицированной пакетной и потоковой обработки данных.
1 ответ

Apache beam Проблема схемы SqlTransforms

Я пытаюсь выполнить ETL, который включает загрузку файлов из HDFS, применение преобразований и запись их в Hive. Используя SqlTransforms для выполнения преобразований, следуя этому документу, я сталкиваюсь с проблемой ниже. Можете ли вы помочь? java…
1 ответ

Beam SQL не будет работать при использовании агрегации в операторе "Не удается спланировать выполнение"

У меня есть базовый конвейер Beam, который читает из GCS, выполняет преобразование Beam SQL и записывает результаты в BigQuery. Когда я не выполняю агрегацию в своем операторе SQL, он работает нормально: .. PCollection<Row> outputStream = sqlR…
13 сен '18 в 12:01
1 ответ

RexCall не может быть приведен к исключению RexInputRef в Apache Beam SQL

Я пытаюсь сделать простое объединение с использованием Beam SQL, но я получаю исключение при компиляции: Exception in thread "main" java.lang.ClassCastException: org.apache.beam.repackaged.beam_sdks_java_extensions_sql.org.apache.calcite.rex.RexCall…
12 фев '19 в 14:01
2 ответа

Как Calcite справляется с преобразованием данных?

Я пытаюсь преобразовать дату, которая хранится в виде строки, в дату, например ГГГГММДД (строка) в ГГГГ-ММ-ДД (дата) Насколько я знаю, нет функции преобразования, которая проверяет формат ввода и формат вывода, я пробовал ручную логику, например, CA…
17 окт '18 в 19:07
1 ответ

Построить вложенную структуру с использованием BeamSQL

В BigQuery у нас есть функция "ARRAY_AGG", которая помогает преобразовать обычную коллекцию во вложенную коллекцию. Есть ли похожий способ создания такого же типа коллекции вложенных структур с использованием BeamSQL? Нечто вроде ниже запроса в Beam…
30 май '19 в 12:53
1 ответ

BeamSQL Group By проблема запроса со значением Float

Пытался получить уникальное значение из таблицы BigQuery, используя BeamSQL в Google Dataflow. С помощью предложения Group By реализовано условие в BeamSQL (пример запроса ниже). Один из столбцов имеет тип данных с плавающей точкой. Выполняя работу …
29 май '19 в 13:30
1 ответ

Не могу вызвать `ApproximateDistinct.ApproximateDistinctFn` из ApacheBeam sql

Попытка использовать агрегатную функцию ApproximateDistinct.ApproximateDistinctFn от apache beam sql это не удалось. мой SQL: SELECT ApproximateDistinct(user_id) as distinct_count, profile, country_code, FROM PCOLLECTION GROUP BY profile,country_cod…
0 ответов

Разверните вложенные PCollection с помощью BeamSQL

Попробуйте использовать BeamSQL для удаления вложенного типа PCollection. Предположим, что PCollection, где есть сотрудники и его детали. Здесь детали находятся во вложенной коллекции. Так что, если мы используем BeamSQL как "SELECT PCOLLECTION.deta…
07 май '19 в 17:50
1 ответ

Как добавить облако Google Pubsub в качестве источника в оболочке Beam SQL?

Я пытаюсь BeamSQL в shell и хотим проверить, как работают неограниченные источники с точки зрения удобства использования и производительности. Читая документацию здесь, я создал внешнюю таблицу следующим образом: CREATE EXTERNAL TABLE pubsub_table (…
16 май '19 в 09:43
1 ответ

Apache Beam SQLTransform: невозможно вызвать getSchema при отсутствии схемы

Я пытаюсь применить SQLTransform на PCollection<Object>, Здесь преобразование CustomSource генерирует Pojo во время выполнения. Hence, тип объекта, для которого выполняется SQLTransform, неизвестен во время компиляции. Pipeline p = Pipeline.cr…
04 июл '19 в 01:22
1 ответ

Как удалить дубликаты в скользящем окне - Apache Beam

Я реализовал конвейер данных с несколькими неограниченными источниками и боковыми входами, соединил данные со скользящим окном (30 с и каждые 10 с) и выдал преобразованный вывод в тему Кафки. Проблема, с которой я столкнулся, заключается в том, что …
17 июл '19 в 07:43
2 ответа

Луч Apache: агрегация SQL не дает результатов для неограниченного / ограниченного соединения

Я работаю над конвейером лучей apache для запуска функции агрегации SQL. Ссылка: https://github.com/apache/beam/blob/master/sdks/java/extensions/sql/src/test/java/org/apache/beam/sdk/extensions/sql/BeamSqlDslJoinTest.java#L159. Пример здесь работает…
19 июл '19 в 21:55
2 ответа

Каков эквивалентный тип данных для числового в apache.beam.sdk.schemas.Schema.FieldType

Попытка записать данные в таблицу BigQuery с помощью BeamSQL. Для записи данных нам нужна схема этих данных. Использовал org.apache.beam.sdk.schemas для определения схемы сбора данных. У нас есть столбец Числовой тип данных в этой коллекции данных. …
1 ответ

Луч SQL - SqlValidatorException: объект 'PCOLLECTION' не найден

Я делаю некоторые эксперименты с Beam SQL. Я получаю PCollection<Row> из преобразования SampleSource и передать свой вывод SqlTransform, String sql1 = "select c1, c2, c3 from PCOLLECTION where c1 > 1"; Код ниже работает без ошибок. POutput …
02 июл '19 в 00:43
1 ответ

Какова альтернатива для боковых входов в Apache Beam

Я пытаюсь объединить несколько потоков Kafka и поисков с помощью Apache Beam. Я использую боковые входы для обработки справочных таблиц, и все работает в прямом бегу. Но когда я попытался запустить его в режиме зажигания или в режиме мигания, я узна…
2 ответа

Как исправить "Объединение неограниченных PCollections в настоящее время поддерживается только для неглобальных окон с триггерами" в Apache Beam

Я пытаюсь объединить 2 неограниченных источника, используя Apache Beam Java SDK. При присоединении я получаю сообщение об ошибке ниже. Исключение в потоке "main" java.lang.UnsupportedOperationException: Присоединение неограниченных PCollections в на…
08 июл '19 в 06:50
3 ответа

Удалить большую таблицу запросов, используя Apache Beam java

Можно ли удалить таблицу, доступную в bigQuery, используя Apache Beam, используя Java? p.apply("Delete Table name", BigQueryIO.readTableRows().fromQuery("DELETE FROM Table_name where condition"));
0 ответов

Луч SQL не стреляет

Я создаю простой прототип, в котором я читаю данные из Pubsub и использую BeamSQL, фрагмент кода, как показано ниже val eventStream: SCollection[String] = sc.pubsubSubscription[String]("projects/jayadeep-etl-platform/subscriptions/orders-dataflow") …
1 ответ

Apache calcite: приведение целого числа к дате и времени

Я использую Beam SQL и пытаюсь привести целое число к полю даты и времени. Schema resultSchema = Schema.builder() .addInt64Field("detectedCount") .addStringField("sensor") .addInt64Field("timestamp") .build(); PCollection<Row> sensorRawUnbound…
19 июл '19 в 21:34
1 ответ

Как обновить / обновить боковой ввод в каждом окне

Я использую луч Apache, чтобы объединить несколько потоков вместе с некоторыми поисками. У меня есть 2 сценария. Если размер поиска огромен, я хотел, чтобы боковой ввод перезагружался / обновлялся при каждой обработке записи (т.е. я буду запрашивать…
15 июл '19 в 07:29