Рабочие места все еще находятся в состоянии ожидания и застряли, хотя ресурсы пряжи в изобилии
В нашем кластере много очередей. мы используем планировщик емкости. Одна из наших очередей имеет следующую конфигурацию
Ниже приводится конфигурация пряжи
yarn.scheduler.capacity.root.Dt_Rep.acl_administer_jobs=prdadm,HTTP
yarn.scheduler.capacity.root.Dt_Rep.acl_administer_queue=prdadm,HTTP
yarn.scheduler.capacity.root.Dt_Rep.acl_submit_applications=*
yarn.scheduler.capacity.root.Dt_Rep.capacity=20
yarn.scheduler.capacity.root.Dt_Rep.enable-size-based-weight=true
yarn.scheduler.capacity.root.Dt_Rep.maximum-capacity=100
yarn.scheduler.capacity.root.Dt_Rep.ordering-policy=fair
yarn.scheduler.capacity.root.Dt_Rep.state=RUNNING
yarn.scheduler.capacity.root.Dt_Rep.user-limit-factor=3
Мы часто видим, что задания, которые выполняются в этой очереди, переходят в состояние ожидания и не получают ресурсы, даже если максимальная емкость установлена на 100.
Мы никогда не видим все используемые ресурсы Vcores, поэтому ожидаем, что рабочие места получат ресурсы, если они будут бесплатными. что я могу сделать, чтобы исправить эту проблему. мы хотим, чтобы поток заданий, который выполняется в этой очереди, запускался так или иначе.