Ошибка пространства кучи Java при запуске задания сходства элементов mahout в Amazon EMR

Я пытаюсь выполнить задание сходства элементов mahout на входе, состоящем из ~250 миллионов пар (строка) в кластере Amazon EMR (m3.2xLarge,10 основных узлов). Я сталкиваюсь с ошибкой размера кучи Java при выполнении задания сходства.

Вещи, которые я пытался решить эту проблему.

  1. Увеличьте размер кучи именованных узлов, определив их в действии начальной загрузки.
    --bootstrap-action s3://asticmapreduce / bootstrap-action /configure-daemons --args --namenode-heap-size=8192

  2. Используйте загрузочную загрузку с интенсивным использованием памяти, рекомендованную AWS (s3: //asticmapreduce/bootstrap-actions/configurations/latest/ интенсивная память)

  3. Установите MAHOUT_HEAPSIZE вручную.

Проблема не решена. Есть ли способ ее решить?

1 ответ

Редко нужно менять размер кучи демона namenode по умолчанию в EMR и, более вероятно, jvm контейнера / задачи, который нуждается в настройке ( http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/TaskConfiguration_H2.html).

Перед дальнейшими изменениями вам необходимо определить, какой процесс действительно страдает от ошибки кучи, а затем настроить его соответствующим образом.

Если это действительно куча jvm контейнера / задачи, то ее можно настроить с помощью configure-hadoop ( http://docs.aws.amazon.com/ElasticMapReduce/latest/DeveloperGuide/emr-plan-bootstrap.html),

Также отбросьте интенсивное загрузочное действие, это только для AMI 1.x.

Другие вопросы по тегам