Как работать со сценариями переработки в AWS Kinesis?

Я изучаю AWS Kinesis для требования к обработке данных, которое заменяет старую пакетную обработку ETL потоковым подходом.

Одним из ключевых требований для этого проекта является возможность повторной обработки данных в случаях, когда

  • Ошибка обнаружена и исправлена, а приложение повторно развернуто. Данные должны быть обработаны с самого начала.
  • Добавлены новые функции и история должна быть переработана полностью или частично.

Сценарии очень хорошо документированы здесь для Kafka - https://cwiki.apache.org/confluence/display/KAFKA/Kafka+Streams+Data+%28Re%29Processing+Scenarios.

Я видел ShardIterator на основе меток времени в Kinesis, и я думаю, что инструмент сброса, похожий на Kafka, может быть создан с использованием API Kinesis, но было бы здорово, если что-то подобное уже существует. Даже если это не так, было бы хорошо учиться у тех, кто решил подобные проблемы.

Итак, кто-нибудь знает какие-либо существующие ресурсы, шаблоны и инструменты, доступные для этого в Kinesis?

1 ответ

Я столкнулся со сценариями, в которых я хочу повторно обработать записи, обработанные кинезисом, я использовал видеомагнитофон Kinesis для повторной обработки записей, созданных кинезисом.

Kinesis-VCR записывает потоки кинезиса и поддерживает метаданные файлов, обработанных кинезисом в данный момент времени.

Позже мы можем использовать для повторной обработки / воспроизведения событий для любого заданного временного диапазона.

Вот ссылка на GitHub для того же.

https://github.com/scopely/kinesis-vcr

Дайте мне знать, если это работает для вас.

Спасибо и С уважением, Шривиньеш К.Н.

Другие вопросы по тегам