Описание тега flink-streaming

Apache Flink - это платформа с открытым исходным кодом для масштабируемой пакетной и потоковой обработки данных. Flink поддерживает пакетную и потоковую аналитику в одной системе. Аналитические программы можно писать краткими и элегантными API-интерфейсами на Java и Scala.
1 ответ

Flink Streaming AWS S3 читает несколько файлов параллельно

Я новичок во Flink, мое понимание следующее вызов API StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) будет читать файлы параллельно для заданного пути S3. Мы храним файлы журналов в S3. Требуется обслуживать несколько кл…
1 ответ

Пазлы для Flink State Backends

Я получил следующее утверждение: "В зависимости от вашего внутреннего состояния, Flink может также управлять состоянием приложения, то есть Flink имеет дело с управлением памятью (возможно, при необходимости выливаясь на диск), чтобы приложения могл…
27 май '18 в 03:27
1 ответ

Flink Streaming: поток данных, который контролируется потоком управления

У меня есть вопрос, который является вариацией этого вопроса: Flink: как сохранить состояние и использовать в другом потоке? У меня есть два потока: val ipStream: DataStream[IPAddress] = ??? val routeStream: DataStream[RoutingTable] = ??? Я хочу узн…
06 янв '17 в 17:31
0 ответов

Получение NullPointerException при попытке создать RMQSink на Flink

Я пытаюсь заставить Sink for Flink отправлять сообщения из Flink в RabbitMQ. Когда я создаю Sink в main, все работает нормально - я получаю сообщение в специальной очереди на RabbitMQ. К сожалению, когда я пытаюсь создать Sink вне основного метода -…
10 авг '17 в 05:44
1 ответ

Использование RabbitMQ в качестве источника данных Flink DataStream без автоматического создания очереди RabbitMQ

Когда я использую RabbitMQ в качестве источника данных Flink DataStream, как сказано в документации Flink. final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // checkpointing is required for exactly-once or …
13 май '18 в 14:10
1 ответ

Сплит против фильтра против модифицированной функции карты

Допустим, вы обрабатываете поток событий, которые проходят через две функции карты. Первый пытается классифицировать события по некоторому критерию, но в некоторых случаях он может потерпеть неудачу (оставляя событие без изменений). Второй должен де…
11 фев '18 в 06:26
2 ответа

Разница между базой данных временных рядов и механизмом потоковой аналитики, таким как потоковая передача искры

Может ли база данных временных рядов делать все, что может делать система потоковой аналитики (например, аналитика потоковой передачи искр / флинк / кинезис)? Один относится к другому? Я не ищу, какой из них лучше. Просто понимание того, какие разны…
2 ответа

Flink: ошибка выполнения кластера потери Taskmanager

Я запускаю потоковую программу в реальном времени на Flink с 1 мастером и 2 работниками. Один рабочий работает на отдельной машине, а другой - на самой главной машине. Я использую JAR моей программы, в которой Parallelism установлен на 2. Также я чи…
25 янв '17 в 07:02
0 ответов

Flink не может инициализировать бэкэнд состояния оператора при запуске с контрольной точки

Когда запускается задание Flink, он может найти файлы контрольных точек в HDFS, но во время десериализации возникает исключение, например: java.lang.IllegalStateException: Could not initialize operator state backend. at org.apache.flink.streaming.ap…
26 июл '18 в 08:35
1 ответ

Можем ли мы объединить и счет, и обработать время запуска в Flink?

Я хочу завершить работу Windows после того, как счет достиг 100 или каждые 5 секунд в течение времени переворачивания? То есть когда элементы достигают 100, запускаются вычисления Windows, однако, если элементы не повторяют 100, а время истекло 5 се…
06 июн '17 в 05:57
2 ответа

Интеграционный тест для сложной топологии (несколько входов) в Flink

Мне нужно написать модульный тест для топологии потоковой передачи Flink. Это в основном CoFlatMapFunctionи имеет 2 входа. Я пытаюсь получить вдохновение от этой страницы: https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/testing.htm…
1 ответ

Использование Grok в потоковой передачи Flink

Флинк Трубопровод выглядит следующим образом: читать сообщения (строки) из темы кафки. сопоставление с образцом через преобразование grok в формат json. Агрегации за промежуток времени по извлеченному полю из json. Ниже приведен код для сопоставлени…
0 ответов

Буферный пул уничтожен по типу POJO

У меня есть пользовательский источник, который испускает пользовательский тип данных BaseEvent. Следующий код прекрасно работает, когда BaseEvent не POJO. Но когда я изменил его на POJO, добавив конструктор по умолчанию, я получил исключение времени…
21 дек '18 в 03:17
0 ответов

Apache Flink: использовать YAML-файл в качестве файла свойств

Я использую Apache Flink 1.7.1. У меня есть некоторые свойства в файле YAML, такие как: cassandra: host: - "host1" - "host2" port: PORT_NUMBER username: "[USER_NAME]" password: "[PASSWORD]" В соответствии с рекомендациями по адресу: https://ci.apach…
22 фев '19 в 09:51
1 ответ

Как посчитать, сколько "клиентов" находятся в состоянии с распределенным миганием на основе событий изменения состояния? Мне нужны объекты с состоянием

Я работаю над проектом POC в Java, используя Kafka -> Flink -> эластичный поиск. На кафке будет производиться непредсказуемое количество событий от 0 до тысяч событий в секунду, например по определенной теме. {"gid":"abcd-8910-2ca4227527f9", "state"…
1 ответ

Flink применить функцию на timeWindow

В настоящее время я делаю проект Flink. Основная идея проекта - прочитать поток данных JSON (сетевых журналов), сопоставить их и сгенерировать новый JSON, который представляет собой комбинацию различной информации JSON. В этот момент я могу читать J…
18 дек '17 в 08:28
1 ответ

Flink Пользовательская сериализация с registerTypeWithKryoSerializer

Я хотел бы посоветовать вам быстрое возможное улучшение в DOC онлайн с сериализацией. На самом деле вы проделали потрясающую работу как над реализацией, так и над документацией. Способ, которым flink автоматически понимает, как лучше всего сериализо…
19 янв '19 в 10:12
2 ответа

Порядок окна Apache Flink

Используя Apache Flink, я хочу создать потоковое окно, отсортированное по временной метке, которая хранится в событии Kafka. Согласно следующей статье это не реализовано. https://cwiki.apache.org/confluence/display/FLINK/Time+and+Order+in+Streams Од…
14 июн '16 в 10:46
1 ответ

Разница между shuffle() и rebalance() в Apache Flink

Я работаю над последним проектом моего бакалавра, который посвящен сравнению Apache Spark Streaming и Apache Flink (только потоковая передача), и я только что пришел к разделу "Физическое разбиение" в документации Flink. Дело в том, что в этой докум…
0 ответов

Flink InternalTimeServiceManager localKeyGroupRange

В InternalTimeServiceManager, где находится localKeyGroupRange инициализируется? И это происходит при запуске диспетчера задач? InternalTimeServiceManager( int totalKeyGroups, KeyGroupsList localKeyGroupRange, KeyContext keyContext, ProcessingTimeSe…
17 июл '18 в 11:08