Можно ли эффективно повторно инициализировать непрерывные представления?

Я новичок в PipelineDB и еще не испытал его во время выполнения (установка ожидается...). Но я перечитываю документацию и полностью заинтригован.

По-видимому, PipelineDB может принимать представления запросов на основе множеств и механически преобразовывать их в инкрементное представление для эффективной обработки потоков дельт с ограниченным объемом памяти в зависимости от выходных данных непрерывного представления.

Поддерживается ли также запуск запроса на основе набора как запроса на основе набора для заполнения непрерывного представления? Мне кажется, что при создании непрерывного представления исходные данные будут рассчитаны традиционным способом. Кроме того, поскольку Continuous Views могут быть усечены, могут ли они быть снова заполнены (из все еще доступных исходных таблиц), не разбирая какие-либо зависимые объекты, которые он должен разрешить удалять / создавать?

Мне кажется, что эта функция будет иметь решающее значение во многих практических сценариях. Одним из простых примеров было бы обновление времени от времени для сброса отклонения от ошибок округления, скажем, в дробных средних.

Другой пример, если в самой PipelineDB обнаружена и исправлена ​​ошибка, которая вызвала ошибки в данных. После того, как программное обеспечение исправлено, запросы, основанные на данных, все еще доступных, должны быть перезапущены.

Непрерывные представления, полностью основанные на потоках событий без постоянного хранилища, не могут быть перестроены таким образом. Не уверен в том, что только часть источников объединения эфемерна.

Я не вижу этих тем в документах. Можете ли вы объяснить, как это или не беспокойство?

Спасибо!

1 ответ

Решение

Джефф из PipelineDB здесь.

Основной ответ на ваш вопрос описан во вводной части технической документации PipelineDB:

"PipelineDB может значительно сократить объем информации, который необходимо сохранить на диске, поскольку сохраняется только вывод непрерывных запросов. Необработанные данные отбрасываются после того, как они были прочитаны непрерывными запросами, которые должны их прочитать".

В то время как непрерывные представления хранят только результаты непрерывных запросов, почти каждый, кто использует PipelineDB, хранит свои необработанные данные где-то дешево, как S3. PipelineDB предназначен для использования в качестве аналитического уровня в реальном времени, который обеспечивает работу таких приложений, как отчеты в реальном времени и системы мониторинга и оповещения в реальном времени, которые почти всегда используются совместно с другими системами для инфраструктуры данных.

Если вы заинтересованы в PipelineDB, вы также можете попробовать новый продукт API аналитики в реальном времени, который мы недавно выпустили под названием Stride. API Stride предоставляет разработчикам преимущества непрерывных запросов SQL, интегрированного хранилища, оконных запросов и других вещей, таких как веб-зацепки в реальном времени, и все это без необходимости управлять какой-либо базовой инфраструктурой данных, все через простой HTTP API.

Если у вас есть какие-либо дополнительные технические вопросы, вы всегда можете найти наших пользователей с открытым исходным кодом и команду разработчиков в нашем чате на Gitter.

Другие вопросы по тегам