Описание тега apache-flink

Apache Flink - это платформа с открытым исходным кодом для масштабируемой пакетной и потоковой обработки данных. Flink поддерживает пакетную и потоковую аналитику в одной системе. Аналитические программы можно писать краткими и элегантными API-интерфейсами на Java и Scala.
1 ответ

Flink Streaming AWS S3 читает несколько файлов параллельно

Я новичок во Flink, мое понимание следующее вызов API StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) будет читать файлы параллельно для заданного пути S3. Мы храним файлы журналов в S3. Требуется обслуживать несколько кл…
1 ответ

Пазлы для Flink State Backends

Я получил следующее утверждение: "В зависимости от вашего внутреннего состояния, Flink может также управлять состоянием приложения, то есть Flink имеет дело с управлением памятью (возможно, при необходимости выливаясь на диск), чтобы приложения могл…
27 май '18 в 03:27
1 ответ

Время приема Apache Flink, какой замок на стене?

Интересно, какие настенные часы используются в случае конфигурации времени приема пищи в Apache Flink. Здесь мы читаем, что время приема "назначает временные метки настенных часов для записей, как только они поступают в систему (в источнике)". Если …
29 фев '16 в 13:56
0 ответов

Быстрое чтение из HBase: пользовательский объект содержит несериализуемое поле

Я пытаюсь прочитать данные из таблицы HBase в среду выполнения Flink. Ниже приведен пример: https://github.com/apache/flink/blob/master/flink-connectors/flink-hbase/src/test/java/org/apache/flink/addons/hbase/example/HBaseReadExample.java Я попыталс…
03 июл '18 в 15:08
1 ответ

Параметры Typesafe-Config JVM не могут быть получены в Flink

Существует проект Flink, использующий типизированный конфиг, когда я пытался запустить проект в отдельном кластере с помощью команды flink run xxxx.jar -Dconfig=XXXX -Dus=XXXX...Я обнаружил, что параметры JVM (здесь config и мы) не могут быть распоз…
26 мар '18 в 09:38
1 ответ

Как настроить кластер Flink для входа в систему через веб-интерфейс?

У меня настроен кластер Flink, и я хотел бы иметь возможность просматривать журналы и стандартный вывод для JobManager и TaskManager. Когда я захожу в веб-интерфейс, я вижу следующие сообщения об ошибках на соответствующих вкладках: JobManager: Logs…
25 май '17 в 17:15
1 ответ

Flink Streaming: поток данных, который контролируется потоком управления

У меня есть вопрос, который является вариацией этого вопроса: Flink: как сохранить состояние и использовать в другом потоке? У меня есть два потока: val ipStream: DataStream[IPAddress] = ??? val routeStream: DataStream[RoutingTable] = ??? Я хочу узн…
06 янв '17 в 17:31
1 ответ

Apache Flink внешний вызов API

Можно ли вызвать внешний API (RESTful) внутри кода Apache Flink. Если это возможно, то как мы можем это сделать. Я вызываю API из простого Java-кода, он работает нормально, но когда я использую тот же код в Apache Flink, он выдает исключение: java.i…
27 апр '18 в 09:23
2 ответа

ValidationException при использовании таблиц AggregateFunction и ResultTypeQueryable

Я использую локальный кластер Flink 1.6, настроенный на использование flink-table баночка (то есть баночка моей программы не включает flink-table). Со следующим кодом import org.apache.flink.api.common.typeinfo.TypeHint; import org.apache.flink.api.…
13 сен '18 в 20:30
1 ответ

Flink, что эквивалентно ParseQuotedStrings в Scala API

Я пытаюсь преобразовать этот код jave в scala: DataSet<Tuple3<Long, String, String>> lines = env.readCsvFile("movies.csv") .ignoreFirstLine() .parseQuotedStrings('"') .ignoreInvalidLines() .types(Long.class, String.class, String.class); …
27 окт '18 в 19:40
0 ответов

Получение NullPointerException при попытке создать RMQSink на Flink

Я пытаюсь заставить Sink for Flink отправлять сообщения из Flink в RabbitMQ. Когда я создаю Sink в main, все работает нормально - я получаю сообщение в специальной очереди на RabbitMQ. К сожалению, когда я пытаюсь создать Sink вне основного метода -…
10 авг '17 в 05:44
1 ответ

Проблема библиотеки CEP в Apache flink (кластер)

У меня довольно простое приложение, хорошо работающее в Eclipse. При развертывании в кластере происходит очень быстрый сбой: java.lang.RuntimeException: не удалось найти основной метод (String[]) из класса org.ice.drmcl.Application: org/apache/flink…
19 авг '17 в 09:54
0 ответов

Невозможно создать родительские каталоги с помощью Apache Beam/Apache Flink

Когда я пытаюсь развернуть тестовый проект с использованием Apache Beam и Apache Flink с использованием контейнера Docker (режим кластера), я получаю эту ошибку: org.apache.beam.sdk.util.UserCodeException: java.io.IOException: Unable to create paren…
15 июн '18 в 13:23
1 ответ

Flink: разделение по умолчанию / стратегия перестановки / функции

Какие стратегии (хеширование, сортировка) по умолчанию использует Flink для сокращения / группировки наборов данных (например, groupBy или сокращение функций)? И какие API-функции использует Flink для разбиение во время шаффл-шага и сортировка элеме…
02 мар '16 в 17:50
1 ответ

Использование RabbitMQ в качестве источника данных Flink DataStream без автоматического создания очереди RabbitMQ

Когда я использую RabbitMQ в качестве источника данных Flink DataStream, как сказано в документации Flink. final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // checkpointing is required for exactly-once or …
13 май '18 в 14:10
1 ответ

Apache Apex против Apache Flink

Так как обе являются потоковыми средами, которые обрабатывают события одновременно, каковы основные архитектурные различия между этими двумя технологиями / потоковой средой? Кроме того, каковы некоторые конкретные случаи использования, когда один яв…
24 авг '17 в 12:40
1 ответ

Использовать потоки DynamoDB в Apache Flink

Кто-нибудь пробовал использовать потоки DynamoDB в Apache Flink? У Flink есть потребитель Kinesis. Но я ищу, как я могу использовать поток Динамо напрямую. DataStream<String> kinesis = env.addSource(new FlinkKinesisConsumer<>( "kinesis_s…
0 ответов

Операции SQL и параллелизм

Существует ли общее правило для определения параллелизма задач, требуемого для операторов SQL, которые работают в падающем окне? Возможным фактором является то, что источником окна будет Flink Kafka Connector.
11 апр '18 в 00:10
1 ответ

Сплит против фильтра против модифицированной функции карты

Допустим, вы обрабатываете поток событий, которые проходят через две функции карты. Первый пытается классифицировать события по некоторому критерию, но в некоторых случаях он может потерпеть неудачу (оставляя событие без изменений). Второй должен де…
11 фев '18 в 06:26
1 ответ

Flink MultipleLinearRegression fit принимает 3 параметра

Я следую примеру https://ci.apache.org/projects/flink/flink-docs-release-1.0/apis/batch/libs/ml/multiple_linear_regression.html но в этом примере для функции соответствия требуется только один параметр, но в моем коде подходят три параметра, mlr.fit…
06 апр '16 в 09:35