Какие существуют инструменты для сравнительного анализа каскадных операций в Hadoop?
Мне дали многошаговую каскадную программу, которая работает примерно в десять раз больше времени, чем эквивалентное задание M/R. Как мне выяснить, какой из шагов выполняется медленнее всего, чтобы я мог выбрать его для оптимизации?
1 ответ
Не полный ответ, но достаточно, чтобы вы начали, я думаю. Вам нужно создать графическое представление рабочего процесса MapReduce для вашей работы. Смотрите эту страницу для примера: http://www.cascading.org/multitool/. График должен помочь понять, где находится узкое место.