Описание тега flink-sql

Apache Flink предлагает два реляционных API, SQL и API таблиц, в качестве унифицированных API для потоковой и пакетной обработки.
0 ответов

Операции SQL и параллелизм

Существует ли общее правило для определения параллелизма задач, требуемого для операторов SQL, которые работают в падающем окне? Возможным фактором является то, что источником окна будет Flink Kafka Connector.
11 апр '18 в 00:10
1 ответ

Apache Flink - включить порядок объединения

Я заметил, что Apache Flink не оптимизирует порядок объединения таблиц. На данный момент он поддерживает указанный пользователем порядок соединения (в основном он принимает запрос буквально). Я полагаю, что Apache Calcite может оптимизировать порядо…
03 дек '18 в 20:31
1 ответ

Flink SQL: недостаточно памяти для объединения таблиц

Я часто обновляю таблицу MySql. Я хочу сделать снимок для каждого идентификатора, который обновляется за последние 20 секунд, и записать значение в redis. Я использую binlog в качестве потокового ввода и преобразовываю поток данных в таблицу Flink. …
10 окт '18 в 14:53
1 ответ

Apache Flink: проблема с производительностью при выполнении многих заданий

При большом количестве запросов Flink SQL (100 из приведенных ниже) клиент командной строки Flink завершается с ошибкой "JobManager не отвечает в течение 600000 мс" в кластере Yarn, то есть задание никогда не запускается в кластере. Журналы JobManag…
13 апр '18 в 00:43
2 ответа

Невозможно распечатать файл CSV с помощью Flink Table API

Я пытаюсь прочитать файл с 34 полями для печати на консоли с помощью NetBeans. Однако все, что я могу напечатать, это схема. Потому что опция печати отсутствует в этой конкретной версии Flink, используемой с csvreader. Пожалуйста, посмотрите код и п…
30 июл '18 в 08:33
1 ответ

flink: использовать allowLateness в flink sql api

Я использую Flink SQL API, и у меня есть SQL как Table result2 = tableEnv.sqlQuery("SELECT user, SUM(amount) FROM Orders GROUP BY TUMBLE(proctime, INTERVAL '1' DAY), user"); Могу ли я включить "allowLatenness" и получать поздние данные в качестве по…
04 июл '18 в 11:49
1 ответ

Водяные знаки в RichParallelSourceFunction

Я реализую функцию SourceFunction, которая читает данные из базы данных. Задание должно быть в состоянии возобновиться, если оно остановлено или уничтожено (т. Е. Точки сохранения и контрольные точки) с обработкой данных ровно один раз. Что у меня т…
19 окт '18 в 12:54
1 ответ

Бег Флинк в пряже

Я бегу Flink(1.4.2) на пряже. Я использую Flink Yarn Client для отправки работы в Yarn Cluster. Предположим, у меня есть TM с 4 слотами, и я развернул задание Flink с параллелизмом =4 с 2 контейнерами - 1 JM и 1 TM. Каждый параллельный экземпляр буд…
24 дек '18 в 13:01
1 ответ

Использование ROW() для вложенной структуры данных

Я успешно использовал JsonRowSerializationSchema из артефакта flink-json для создания TableSink<Row> и вывести JSON из SQL, используя ROW. Он отлично работает для передачи плоских данных: INSERT INTO outputTable SELECT ROW(col1, col1) FROM inp…
1 ответ

Фильтрация Flink Table по полю типа Date

Я создал таблицу, которая имеет одно поле типа Date, а именно f_date. Одна часть моих желаемых строк таблицы фильтра запросов основана на поле f_date. Итак, я сделал следующее: mytable.filter("f_date <= '1998-10-02'") а также mytable.filter("f_da…
29 янв '19 в 18:28
1 ответ

Использовать Flink для обработки сообщений кафки за последние 10 минут?

Мы рассматриваем возможность использования Flink SQL для специальной аналитики данных Кафки в реальном времени за последние 5–10 минут. Похоже, что для этого нам нужно расширить коннектор Kafka, чтобы он мог только читать сообщения за определенный п…
16 фев '19 в 00:02
1 ответ

Почему Flink SQL использует оценку мощности в 100 строк для всех таблиц?

Я не был уверен, почему логический план не был правильно оценен в этом примере. Я посмотрел более глубоко в базовом коде Flink и проверил это, когда кальцит оценивает / оценивает количество строк для запроса в объекте. По какой-то причине он всегда …
0 ответов

Spark SQL VS Flink Table Api

Кто-нибудь проверял различия в производительности API-интерфейса Spark SQL VS Flink и расходе памяти для пакетных данных? Дает ли Apink таблицы Api такую ​​же производительность, как Spark SQL? Спасибо Шри
09 июн '18 в 13:39
1 ответ

Flink - Таблица SQL API - Добавить столбец в таблицу

Интересно, есть ли способ добавить столбец с постоянным значением в таблицу во Flink (Java API), что-то вроде функции.withColumn в Spark DF/DS? С уважением, Бастьен
08 авг '18 в 13:33
1 ответ

Apache Flink: лучший способ создать объединение "многие к одному" на динамическом столе?

У меня есть ресурс с часто добавляемыми / обновляемыми строками, который называется "Заказы", ​​и ресурс "Пользовательский профиль" с менее частыми (но часто важными) обновлениями. Я хочу выполнить непрерывный запрос на объединение этих двух ресурсо…
1 ответ

Использование карт в Flink SQL

Если вы регистрируете таблицу и одним из ее полей является карта (extra в этом случае ") следующее утверждение работает просто отлично: SELECT f1, f2 FROM customers WHERE extra['sportPrefs'] = 'Football'; Теперь попробуйте ссылаться на ключ, который…
23 фев '18 в 05:20
1 ответ

Регистрация агрегатного UDF в Apache Flink

Я пытаюсь выполнить описанные здесь шаги, чтобы создать базовый UDF Flink Aggregate. Я добавил зависимости () и реализовал public class MyAggregate extends AggregateFunction<Long, TestAgg> {..} Я реализовал обязательные методы, а также несколь…
15 мар '18 в 21:15
1 ответ

Flink: не удалось найти подходящую фабрику таблиц для 'org.apache.flink.table.factories.DeserializationSchemaFactory' в пути к классам

Я использую таблицу api flink, я получаю данные от kafka, затем регистрирую их как таблицу, затем использую оператор sql для обработки и, наконец, преобразовываю результат обратно в поток, записываю в каталог, код выглядит так: def main(args: Array[…
25 сен '18 в 14:00
0 ответов

Завершить запрос к базе данных во время операции flink

Я пытаюсь работать с Флинком и Кассандрой. Обе эти среды в значительной степени параллельны, но мне сложно заставить их работать вместе. Прямо сейчас мне нужно выполнить операцию параллельного чтения из Cassandra различными диапазонами токенов с воз…
17 май '18 в 15:43
2 ответа

Apache Flink: невозможно преобразовать объект Table в объект DataSet

Я использую Table API на Flink 1.4.0. у меня есть немного Table объекты для преобразования в DataSet типа Row, Проект был построен с использованием Maven и импортирован на IntelliJ. У меня есть следующий код и IDE не может разрешить метод tableenv.t…
04 мар '18 в 14:14