Как запустить приложение Apache Crunch без Hadoop?
Я слышал, что Apache Crunch - это фасад, и он может запускать приложения без Hadoop. Это правда?
Если да, то как это сделать?
В Apache Crunch Getting Started самый первый пример включает команду hadoop:
$ hadoop jar target/crunch-demo-1.0-SNAPSHOT-job.jar <in> <out>
Можно ли опустить hadoop
?
1 ответ
Возможно, вы неправильно поняли, что вам не нужен кластер Hadoop. Hive, Pig, Spark можно запускать локально или в файловых системах, отличных от HDFS.
Насколько я знаю о библиотеке, вам, тем не менее, нужен Hadoop API (вот что hadoop jar
загрузит для вас).
Другими словами, вы можете установить входные и выходные каталоги на локальный file://
путь, чтобы обойти необходимость HDFS.
Вы можете export CLASSPATH
самостоятельно включить библиотеки Hadoop и запустить java jar
запустить банку