Apache Flink фильтрация по CSV-файлу

Я пытаюсь использовать потоковую передачу Apache Flink и у меня возникла проблема. У меня есть CSV-файлы, контент вроде:

Привет; Мир; вы; являются;; Лучший;

И каждый файл 300-600 мб.

И все, что мне нужно, это фильтрация моих событий. Если заголовок события содержит какое-либо слово из файла - его следует опустить. Я получаю события из Кафки-источника.

Как вы думаете - как лучше всего решить мою проблему? Как я вижу в документах - я могу создать таблицу из CSV-файла и использовать TableEnvironment. Но я хочу знать - какие решения для этой проблемы существуют в Apache Flink?

Большое спасибо за помощь!

0 ответов

Другие вопросы по тегам