Apache Spark или каскадный фреймворк?

Я не совсем понимаю, когда использовать Cascading Framework и когда использовать Apache Spark. Каковы подходящие варианты использования для каждого?

Любая помощь приветствуется.

1 ответ

Решение

В сущности, Cascading - это высокоуровневый API поверх механизмов исполнения, таких как MapReduce. В этом смысле это аналог Apache Crunch. Каскадирование имеет несколько других связанных проектов, таких как версия Scala (Scalding) и оценка PMML (Pattern).

Apache Spark похож в том смысле, что он предоставляет высокоуровневый API для конвейеров данных и тот, который доступен в Java и Scala.

Это больше сам механизм исполнения, чем слой поверх одного. Он имеет ряд связанных проектов, таких как MLlib, Streaming, GraphX, для ML, потоковая обработка, вычисления графиков.

В целом, сегодня Spark гораздо интереснее, но они не совсем одно и то же.

Другие вопросы по тегам