Хранение твитов с использованием искры в многоядерном кластере

Я хочу хранить твит в реальном времени, следуя некоторым критериям фильтрации, в базе данных MySQL. Я хочу понять, какой подход лучше, учитывая тот факт, что у меня машина с 16 процессорами. Так как в моем случае лучше использовать потоковый API, можно легко создать Java-приложение с использованием библиотеки tweet4j; В этом случае фильтрация и сохранение могут быть выполнены с использованием многопоточного программирования. С другой стороны, я только что обнаружил Spark, который с несколькими строками разрешает делать то же самое, но остается узким местом в наличии только одной памяти.

Я хочу понять, может ли спарк стать настоящим улучшением, учитывая, что довольно сложно достичь ограничения скорости твиттера, и я не могу воспользоваться распределенным кластером.

Спасибо за помощь.

0 ответов

Другие вопросы по тегам