Вопросы проектирования приложений аналитики в реальном времени или почти в реальном времени
Я работаю над дизайном и внедрением (почти) движка веб-аналитики в реальном времени. Это похоже на Google Analytics и ChartBeat. Ожидается около 150 миллионов запросов в день. У нас есть от 5 до 8 машин с 2,5 ГГц (8-ядерным) процессором и 16 ГБ оперативной памяти каждая.
Я смотрю на горизонтально масштабируемые решения для этого требования. В настоящее время я анализирую комбинацию mongo-hadoop для этой цели. Из того, что я понял до сих пор, было бы трудно хранить все данные в одном месте (на одной машине) для анализа. Итак, Hadoop в качестве процессора данных и MongoDB в качестве хранилища данных представляются мне хорошим сочетанием.
Существует ли стандарт или (я бы сказал) проверенная архитектура для такого рода приложений? Какие конструктивные соображения я должен принять? Работает ли комбинация монго-гадуп на кого-то?
1 ответ
Я полагаю, вы уже читали это?
http://www.mongodb.org/display/DOCS/Hadoop+Quick+Start
Более подробная информация и рабочие примеры для конфигурации с шифрованием здесь - http://www.slideshare.net/spf13/mongodb-and-hadoop