Apache Beam Python SDK устанавливает водяной знак вручную с помощью тела события
Пример использования: создание неограниченной коллекции Pcollection из темы pubsub
Водяной знак будет иметь вид "Идеальный водяной знак", доступный в теле сообщения.
Источник очереди pubsub будет определять водяной знак
Message {
event_time timestamp
watermark timestamp
...other
}
Я хотел бы найти лучший способ использовать этот водяной знак
После прочтения заметок Славы, похоже, что водяной знак для pubsub io определен в коде коннектора, который я еще не слишком хорошо знаю, но не верю, что это подходящее место для изменения для моего варианта использования
Итак, я понял, что использование Splittable DoFns может быть правильным инструментом для реализации этого
Текущее решение
- Читать из pubsub
- Разобрать сообщение с помощью DoFn
- Установите водяной знак в шаге 2 DoFn с помощью ManualWatermarkEstimator
Будет ли это правильный подход?