Apache Hive и запись обновлений

У меня есть потоковые данные, поступающие в мое потребительское приложение, которые я в конечном итоге хочу показать в Hive/Impala. Одним из способов будет использование API на основе Hive для вставки обновлений пакетами в таблицу Hive.

Альтернативный подход заключается в том, чтобы записывать данные непосредственно в HDFS в виде файла avro/parquet и позволять кусту обнаруживать новые данные и всасывать их.

Я попробовал оба подхода в моей среде разработки, и единственным "недостатком", который я заметил, была высокая задержка записи в кусты и / или условия сбоя, которые я должен учитывать в своем коде.

Есть ли образец архитектурного дизайна / лучшие практики для подражания?

0 ответов

Другие вопросы по тегам