Apache Spark или каскадный фреймворк?
Я не совсем понимаю, когда использовать Cascading Framework и когда использовать Apache Spark. Каковы подходящие варианты использования для каждого?
Любая помощь приветствуется.
1 ответ
В сущности, Cascading - это высокоуровневый API поверх механизмов исполнения, таких как MapReduce. В этом смысле это аналог Apache Crunch. Каскадирование имеет несколько других связанных проектов, таких как версия Scala (Scalding) и оценка PMML (Pattern).
Apache Spark похож в том смысле, что он предоставляет высокоуровневый API для конвейеров данных и тот, который доступен в Java и Scala.
Это больше сам механизм исполнения, чем слой поверх одного. Он имеет ряд связанных проектов, таких как MLlib, Streaming, GraphX, для ML, потоковая обработка, вычисления графиков.
В целом, сегодня Spark гораздо интереснее, но они не совсем одно и то же.