Ошибка пространства кучи Java при запуске задания сходства элементов mahout в Amazon EMR
Я пытаюсь выполнить задание сходства элементов mahout на входе, состоящем из ~250 миллионов пар (строка) в кластере Amazon EMR (m3.2xLarge,10 основных узлов). Я сталкиваюсь с ошибкой размера кучи Java при выполнении задания сходства.
Вещи, которые я пытался решить эту проблему.
Увеличьте размер кучи именованных узлов, определив их в действии начальной загрузки.
--bootstrap-action s3://asticmapreduce / bootstrap-action /configure-daemons --args --namenode-heap-size=8192Используйте загрузочную загрузку с интенсивным использованием памяти, рекомендованную AWS (s3: //asticmapreduce/bootstrap-actions/configurations/latest/ интенсивная память)
Установите MAHOUT_HEAPSIZE вручную.
Проблема не решена. Есть ли способ ее решить?
1 ответ
Редко нужно менять размер кучи демона namenode по умолчанию в EMR и, более вероятно, jvm контейнера / задачи, который нуждается в настройке ( http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html).
Перед дальнейшими изменениями вам необходимо определить, какой процесс действительно страдает от ошибки кучи, а затем настроить его соответствующим образом.
Если это действительно куча jvm контейнера / задачи, то ее можно настроить с помощью configure-hadoop ( http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html),
Также отбросьте интенсивное загрузочное действие, это только для AMI 1.x.