Slurm (ранее назывался SLURM) - это менеджер ресурсов с открытым исходным кодом, разработанный для Linux-кластеров HPC любого размера.

Slurm: масштабируемый диспетчер ресурсов

Slurm - это менеджер ресурсов с открытым исходным кодом, предназначенный для кластеров Linux любого размера. Он обеспечивает три ключевые функции. Сначала он предоставляет пользователям исключительный и / или неисключительный доступ к ресурсам (компьютерным узлам) на некоторый период времени, чтобы они могли выполнять работу. Во-вторых, он обеспечивает основу для запуска, выполнения и мониторинга работы (обычно параллельной работы) на наборе выделенных узлов. Наконец, он разрешает конкуренцию за ресурсы, управляя очередью незавершенных работ.

Дизайн Slurm очень модульный с десятками дополнительных плагинов. В своей простейшей конфигурации он может быть установлен и настроен за пару минут (см. Caos NSA и Perceus: All-in-one Cluster Software Stack Джеффри Б. Лейтона) и использовался Intel в их 48-ядерном кластере на чип ". Более сложные конфигурации могут удовлетворить потребности компьютерных центров мирового класса в планировании заданий и полагаться на базу данных MySQL для архивирования учетных записей, управления лимитами ресурсов по пользователю или банковскому счету или поддержки сложных алгоритмов приоритизации заданий.

Хотя существуют и другие менеджеры ресурсов, Slurm уникален в нескольких отношениях:

  • Он предназначен для работы в гетерогенном кластере, насчитывающем более 100000 узлов и миллионов процессоров.
  • Он может поддерживать скорость обработки сотен тысяч заданий в час с увеличением количества отправок заданий в несколько раз.
  • Его исходный код находится в свободном доступе под Стандартной общественной лицензией GNU.
  • Он портативный; написан на C и использует механизм настройки GNU autoconf. Хотя изначально они были написаны для Linux, другие UNIX-подобные операционные системы должны быть удобными целями для переноса.
  • Он очень устойчив к сбоям системы, в том числе к отказу узла, выполняющего свои функции управления.
  • Существует механизм подключаемых модулей для поддержки различных соединений, механизмов аутентификации, планировщиков и т. Д. Эти подключаемые модули задокументированы и достаточно просты, чтобы мотивированный конечный пользователь мог понять источник и добавить функциональность.
  • Настраиваемые функции управления мощностью узлов позволяют переводить бездействующие узлы в режим энергосбережения / отключения питания. Это особенно полезно для кластеров с "эластичным пакетом", которые динамически расширяются до поставщика облачных виртуальных машин (ВМ) для поддержки всплесков рабочей нагрузки.

Ресурсы и руководства:

Правописание имени

Начиная с версии 18.08, написание имени "SLURM" было изменено на "Slurm" (фиксация 3d7ada78e).