Разница между базой данных временных рядов и механизмом потоковой аналитики, таким как потоковая передача искры
Может ли база данных временных рядов делать все, что может делать система потоковой аналитики (например, аналитика потоковой передачи искр / флинк / кинезис)?
Один относится к другому? Я не ищу, какой из них лучше. Просто понимание того, какие разные варианты использования они поддерживают.
2 ответа
Базы данных временных рядов ориентированы на хранение и извлечение основанных на времени записей более производительными способами, чем наши обычные реляционные базы данных. В последнее время они снова стали горячей темой, учитывая интерес отрасли к высокопроизводительной обработке событий. В настоящее время большинство из них используют определенные методы индексации для баз данных NoSQL, например OpenTSDB (HBase), InfluxDB (BoltDB) и так далее.
С другой стороны, среды распределенной обработки потоков, такие как Spark Streaming, основаны на исследовании систем управления потоками данных и предоставляют более гибкие способы анализа событий. Они обычно применяются для других типов анализа данных, таких как машинное обучение по потокам, эскизы, оконные операции и для применения множества других методов, которые не являются предметом баз данных временных рядов.
Оба они были получены в результате исследований, проведенных в 2000-х годах в отношении баз данных временных рядов и систем управления потоками данных, поэтому многие функции и архитектурные идеи одного приложения применяются к другому и наоборот. Примером этого является то, что в основной статье "Обработка потоков" "Непрерывные запросы к потокам данных" (S. Babu, 2001) в качестве примера связанной работы приводятся базы данных временных рядов.
База данных временных рядов:
В зависимости от времени пакетной обработки данные будут использоваться базой данных.
Spark Streaming: на основе времени микропакета данные будут потребляться. Spark Streaming - это микропроцессорная потоковая система: