Описание тега apache-crunch
Простые и эффективные конвейеры MapReduce
Библиотека Apache Crunch ™, работающая поверх Hadoop MapReduce и Apache Spark, представляет собой простой API-интерфейс Java для таких задач, как соединение и агрегирование данных, которые сложно реализовать на обычном MapReduce. API-интерфейсы особенно полезны при обработке данных, которые естественным образом не вписываются в реляционную модель, таких как временные ряды, форматы сериализованных объектов, такие как буферы протокола или записи Avro, а также строки и столбцы HBase. Для пользователей Scala существует Scrunch API, который построен поверх Java API и включает REPL (цикл чтения-оценки-печати) для создания конвейеров MapReduce.