Различные инструменты, доступные для создания конвейеров данных

Мне нужно создать конвейеры данных в Hadoop. У меня есть импорт, экспорт, сценарии для очистки данных, и мне нужно настроить их в конвейере.

Я использовал Oozie для графиков импорта и экспорта данных, но теперь мне нужно также интегрировать R-скрипты для процесса очистки данных.

Я вижу, сокол используется для того же.

  1. Как установить сокола в клоудере?
  2. Какие еще инструменты доступны для создания конвейеров данных в hadoop?

1 ответ

2) Я испытываю желание ответить на nifi от Hortonworks, так как этот пост на linkedin сильно вырос, и он очень близок к тому, чтобы заменить oozie. Когда я пишу этот ответ, разница между oozie и nifi - это место, где они запускаются: nifi на внешнем кластере и oozie в hadoop.

Другие вопросы по тегам