Описание тега slurm
Slurm: масштабируемый диспетчер ресурсов
Slurm - это менеджер ресурсов с открытым исходным кодом, предназначенный для кластеров Linux любого размера. Он обеспечивает три ключевые функции. Сначала он предоставляет пользователям исключительный и / или неисключительный доступ к ресурсам (компьютерным узлам) на некоторый период времени, чтобы они могли выполнять работу. Во-вторых, он обеспечивает основу для запуска, выполнения и мониторинга работы (обычно параллельной работы) на наборе выделенных узлов. Наконец, он разрешает конкуренцию за ресурсы, управляя очередью незавершенных работ.
Дизайн Slurm очень модульный с десятками дополнительных плагинов. В своей простейшей конфигурации он может быть установлен и настроен за пару минут (см. Caos NSA и Perceus: All-in-one Cluster Software Stack Джеффри Б. Лейтона) и использовался Intel в их 48-ядерном кластере на чип ". Более сложные конфигурации могут удовлетворить потребности компьютерных центров мирового класса в планировании заданий и полагаться на базу данных MySQL для архивирования учетных записей, управления лимитами ресурсов по пользователю или банковскому счету или поддержки сложных алгоритмов приоритизации заданий.
Хотя существуют и другие менеджеры ресурсов, Slurm уникален в нескольких отношениях:
- Он предназначен для работы в гетерогенном кластере, насчитывающем более 100000 узлов и миллионов процессоров.
- Он может поддерживать скорость обработки сотен тысяч заданий в час с увеличением количества отправок заданий в несколько раз.
- Его исходный код находится в свободном доступе под Стандартной общественной лицензией GNU.
- Он портативный; написан на C и использует механизм настройки GNU autoconf. Хотя изначально они были написаны для Linux, другие UNIX-подобные операционные системы должны быть удобными целями для переноса.
- Он очень устойчив к сбоям системы, в том числе к отказу узла, выполняющего свои функции управления.
- Существует механизм подключаемых модулей для поддержки различных соединений, механизмов аутентификации, планировщиков и т. Д. Эти подключаемые модули задокументированы и достаточно просты, чтобы мотивированный конечный пользователь мог понять источник и добавить функциональность.
- Настраиваемые функции управления мощностью узлов позволяют переводить бездействующие узлы в режим энергосбережения / отключения питания. Это особенно полезно для кластеров с "эластичным пакетом", которые динамически расширяются до поставщика облачных виртуальных машин (ВМ) для поддержки всплесков рабочей нагрузки.
Ресурсы и руководства:
- Быстрый старт
- Учебник, LLNL
- Руководство по эластичному облаку, Google
- Источник GitHub
- Отслеживание ошибок / отправка исправлений
- Википедия
Правописание имени
Начиная с версии 18.08, написание имени "SLURM" было изменено на "Slurm" (фиксация 3d7ada78e).