Описание тега flink-streaming
Apache Flink - это платформа с открытым исходным кодом для масштабируемой пакетной и потоковой обработки данных. Flink поддерживает пакетную и потоковую аналитику в одной системе. Аналитические программы можно писать краткими и элегантными API-интерфейсами на Java и Scala.
1
ответ
Flink Streaming AWS S3 читает несколько файлов параллельно
Я новичок во Flink, мое понимание следующее вызов API StreamExecutionEnvironment.getExecutionEnvironment().readFile(format, path) будет читать файлы параллельно для заданного пути S3. Мы храним файлы журналов в S3. Требуется обслуживать несколько кл…
18 июл '17 в 11:09
1
ответ
Пазлы для Flink State Backends
Я получил следующее утверждение: "В зависимости от вашего внутреннего состояния, Flink может также управлять состоянием приложения, то есть Flink имеет дело с управлением памятью (возможно, при необходимости выливаясь на диск), чтобы приложения могл…
27 май '18 в 03:27
1
ответ
Flink Streaming: поток данных, который контролируется потоком управления
У меня есть вопрос, который является вариацией этого вопроса: Flink: как сохранить состояние и использовать в другом потоке? У меня есть два потока: val ipStream: DataStream[IPAddress] = ??? val routeStream: DataStream[RoutingTable] = ??? Я хочу узн…
06 янв '17 в 17:31
0
ответов
Получение NullPointerException при попытке создать RMQSink на Flink
Я пытаюсь заставить Sink for Flink отправлять сообщения из Flink в RabbitMQ. Когда я создаю Sink в main, все работает нормально - я получаю сообщение в специальной очереди на RabbitMQ. К сожалению, когда я пытаюсь создать Sink вне основного метода -…
10 авг '17 в 05:44
1
ответ
Использование RabbitMQ в качестве источника данных Flink DataStream без автоматического создания очереди RabbitMQ
Когда я использую RabbitMQ в качестве источника данных Flink DataStream, как сказано в документации Flink. final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); // checkpointing is required for exactly-once or …
13 май '18 в 14:10
1
ответ
Сплит против фильтра против модифицированной функции карты
Допустим, вы обрабатываете поток событий, которые проходят через две функции карты. Первый пытается классифицировать события по некоторому критерию, но в некоторых случаях он может потерпеть неудачу (оставляя событие без изменений). Второй должен де…
11 фев '18 в 06:26
2
ответа
Разница между базой данных временных рядов и механизмом потоковой аналитики, таким как потоковая передача искры
Может ли база данных временных рядов делать все, что может делать система потоковой аналитики (например, аналитика потоковой передачи искр / флинк / кинезис)? Один относится к другому? Я не ищу, какой из них лучше. Просто понимание того, какие разны…
17 авг '17 в 22:15
2
ответа
Flink: ошибка выполнения кластера потери Taskmanager
Я запускаю потоковую программу в реальном времени на Flink с 1 мастером и 2 работниками. Один рабочий работает на отдельной машине, а другой - на самой главной машине. Я использую JAR моей программы, в которой Parallelism установлен на 2. Также я чи…
25 янв '17 в 07:02
0
ответов
Flink не может инициализировать бэкэнд состояния оператора при запуске с контрольной точки
Когда запускается задание Flink, он может найти файлы контрольных точек в HDFS, но во время десериализации возникает исключение, например: java.lang.IllegalStateException: Could not initialize operator state backend. at org.apache.flink.streaming.ap…
26 июл '18 в 08:35
1
ответ
Можем ли мы объединить и счет, и обработать время запуска в Flink?
Я хочу завершить работу Windows после того, как счет достиг 100 или каждые 5 секунд в течение времени переворачивания? То есть когда элементы достигают 100, запускаются вычисления Windows, однако, если элементы не повторяют 100, а время истекло 5 се…
06 июн '17 в 05:57
2
ответа
Интеграционный тест для сложной топологии (несколько входов) в Flink
Мне нужно написать модульный тест для топологии потоковой передачи Flink. Это в основном CoFlatMapFunctionи имеет 2 входа. Я пытаюсь получить вдохновение от этой страницы: https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/testing.htm…
03 сен '18 в 17:04
1
ответ
Использование Grok в потоковой передачи Flink
Флинк Трубопровод выглядит следующим образом: читать сообщения (строки) из темы кафки. сопоставление с образцом через преобразование grok в формат json. Агрегации за промежуток времени по извлеченному полю из json. Ниже приведен код для сопоставлени…
15 ноя '16 в 15:07
0
ответов
Буферный пул уничтожен по типу POJO
У меня есть пользовательский источник, который испускает пользовательский тип данных BaseEvent. Следующий код прекрасно работает, когда BaseEvent не POJO. Но когда я изменил его на POJO, добавив конструктор по умолчанию, я получил исключение времени…
21 дек '18 в 03:17
0
ответов
Apache Flink: использовать YAML-файл в качестве файла свойств
Я использую Apache Flink 1.7.1. У меня есть некоторые свойства в файле YAML, такие как: cassandra: host: - "host1" - "host2" port: PORT_NUMBER username: "[USER_NAME]" password: "[PASSWORD]" В соответствии с рекомендациями по адресу: https://ci.apach…
22 фев '19 в 09:51
1
ответ
Как посчитать, сколько "клиентов" находятся в состоянии с распределенным миганием на основе событий изменения состояния? Мне нужны объекты с состоянием
Я работаю над проектом POC в Java, используя Kafka -> Flink -> эластичный поиск. На кафке будет производиться непредсказуемое количество событий от 0 до тысяч событий в секунду, например по определенной теме. {"gid":"abcd-8910-2ca4227527f9", "state"…
15 июн '16 в 09:45
1
ответ
Flink применить функцию на timeWindow
В настоящее время я делаю проект Flink. Основная идея проекта - прочитать поток данных JSON (сетевых журналов), сопоставить их и сгенерировать новый JSON, который представляет собой комбинацию различной информации JSON. В этот момент я могу читать J…
18 дек '17 в 08:28
1
ответ
Flink Пользовательская сериализация с registerTypeWithKryoSerializer
Я хотел бы посоветовать вам быстрое возможное улучшение в DOC онлайн с сериализацией. На самом деле вы проделали потрясающую работу как над реализацией, так и над документацией. Способ, которым flink автоматически понимает, как лучше всего сериализо…
19 янв '19 в 10:12
2
ответа
Порядок окна Apache Flink
Используя Apache Flink, я хочу создать потоковое окно, отсортированное по временной метке, которая хранится в событии Kafka. Согласно следующей статье это не реализовано. https://cwiki.apache.org/confluence/display/FLINK/Time+and+Order+in+Streams Од…
14 июн '16 в 10:46
1
ответ
Разница между shuffle() и rebalance() в Apache Flink
Я работаю над последним проектом моего бакалавра, который посвящен сравнению Apache Spark Streaming и Apache Flink (только потоковая передача), и я только что пришел к разделу "Физическое разбиение" в документации Flink. Дело в том, что в этой докум…
13 май '17 в 18:18
0
ответов
Flink InternalTimeServiceManager localKeyGroupRange
В InternalTimeServiceManager, где находится localKeyGroupRange инициализируется? И это происходит при запуске диспетчера задач? InternalTimeServiceManager( int totalKeyGroups, KeyGroupsList localKeyGroupRange, KeyContext keyContext, ProcessingTimeSe…
17 июл '18 в 11:08