Apache Beam Python SDK устанавливает водяной знак вручную с помощью тела события

Пример использования: создание неограниченной коллекции Pcollection из темы pubsub

Водяной знак будет иметь вид "Идеальный водяной знак", доступный в теле сообщения.

Источник очереди pubsub будет определять водяной знак

Message {
   event_time timestamp
   watermark timestamp
   ...other
}

Я хотел бы найти лучший способ использовать этот водяной знак

После прочтения заметок Славы, похоже, что водяной знак для pubsub io определен в коде коннектора, который я еще не слишком хорошо знаю, но не верю, что это подходящее место для изменения для моего варианта использования

Итак, я понял, что использование Splittable DoFns может быть правильным инструментом для реализации этого

Текущее решение

  1. Читать из pubsub
  2. Разобрать сообщение с помощью DoFn
  3. Установите водяной знак в шаге 2 DoFn с помощью ManualWatermarkEstimator

Будет ли это правильный подход?

0 ответов

Другие вопросы по тегам