Описание тега snappydata
С https://github.com/SnappyDataInc/snappydata
SnappyData - это распределенное хранилище данных в памяти для оперативной аналитики в реальном времени, предоставляющее потоковую аналитику, OLTP (онлайн-обработка транзакций) и OLAP (онлайн-аналитическая обработка) в едином интегрированном, высокопараллельном кластере с высокой доступностью. Эта платформа реализована за счет бесшовной интеграции apache-spark (как вычислительного механизма больших данных) с GemFireXD (как транзакционное хранилище в памяти с масштабируемой семантикой SQL).
В SnappyData GemFireXD запускается в той же самой JVM, на которой работают исполнители Spark. Это обеспечивает оптимальную производительность при перемещении данных в исполнители Spark и из них, а также упрощает общую архитектуру. Все задания Spark должны выполняться в SnappyData, хотя к базе данных SnappyData также можно получить доступ с помощью SQL через ODBC/JDBC, Thrift, REST без необходимости проходить через Spark.
Пакеты SnappyData Технология приблизительной обработки запросов (AQP). Основная идея AQP заключается в том, что можно использовать методы статистической выборки и вероятностные структуры данных для ответа на запросы агрегированного класса без необходимости хранить или оперировать всем набором данных. Этот подход жертвует точностью запроса для более быстрого ответа, позволяя выполнять запросы к большим наборам данных с содержательной и точной информацией об ошибках. Примером из реальной жизни может служить использование политических опросов, проводимых Gallup и другими, где небольшая выборка используется для оценки поддержки кандидата с небольшой погрешностью.
Важно отметить, что не на все запросы SQL можно ответить через AQP, но при перемещении подмножества запросов, попадающих в базу данных, в модуль AQP, система в целом становится более отзывчивой и удобной.
Важные ссылки:
Репозиторий SnappyData на Github
SnappyData общедоступные каналы Slack/Gitter/IRC