Pyspark Streaming - Как настроить пользовательское ведение журнала?
У меня есть потоковое приложение Pyspark, которое работает на пряжу в кластере Hadoop. Потоковое приложение считывает данные из очереди Kafka каждые n секунд и выполняет вызов REST.
У меня есть служба регистрации, которая обеспечивает простой способ сбора и хранения данных, отправки данных в Logstash и визуализации данных в Кибане. Данные должны соответствовать шаблону (JSON с определенными ключами), предоставляемому этим сервисом.
Я хочу отправлять журналы из потокового приложения в Logstash, используя этот сервис. Для этого мне нужно сделать две вещи:
- Collect some data while the streaming app is reading from Kafka and making the REST call.
- Format it according to the logging service template.
- Forward the log to logstash host.
Любое руководство, связанное с этим, было бы очень полезно.
Спасибо!