Что такое пустое пространство / файловая система в HPC
Я изучаю приложения HPC и параллельные файловые системы. Я столкнулся с термином "чистое пространство" и "файловая система".
Я не могу представить, где существует это пространство для царапин. Это на вычислительном узле в виде смонтированной файловой системы / нуля или в главном пространстве хранения.
Каково это содержание.
Является ли пространство с нулями независимым от каждого вычислительного узла, или два или более узлов могут совместно использовать одно пространство с нулями.
Допустим, у меня есть файл 123.txt, который я хочу обрабатывать параллельно. Будет ли в пустом месте части этого файла или весь файл будет скопирован.
Я запутался и нигде в гугле нет четкого описания. Пожалуйста, укажите на некоторых.
Большое спасибо.
2 ответа
Все зависит от того, как был настроен кластер и что нужно пользователям. Когда вам предоставляется доступ к кластеру, вам также должна быть предоставлена некоторая информация о том, как он должен использоваться, который должен ответить на большинство ваших вопросов.
В одном из кластеров, с которыми я работаю, NFS используется для долговременного хранения, а некоторое пространство Luster доступно для пустых рабочих мест. И NFS, и Lustre видны всеми узлами. Каждый из узлов также имеет некоторое пространство для царапин на узле, которое может видеть только этот узел.
Если вы хотите, чтобы ваша работа работала с 123.txt параллельно, вы можете скопировать 123.txt в общее чистое пространство (Luster) или скопировать его на каждое из ваших чистых пространств узла в файле работы.
for i in `cat $PBS_NODEFILE | sort -u ` ; do scp 123.txt $i:/scratch ; done
Как только у каждого узла есть копия, вы можете запустить свою работу. По завершении работы вам необходимо скопировать результаты в постоянное хранилище, поскольку кластеры часто запускают сценарии для очистки пустого пространства.
Существует много разных способов продумать или развернуть "чистое пространство" или "чистую файловую систему".
Допустим, у вас есть кластер узлов Linux, и у всех этих узлов есть жесткий диск. Вы можете представить себе пространство / нуля, локальное для каждого узла. Поскольку образ ОС будет относительно небольшим, и в настоящее время невозможно приобрести что-либо меньшее, чем терабайтный диск, в результате у узла будет почти терабайт памяти для использования.
Что бы вы сделали с этим локальным хранилищем узла? Ох, много всего. Масштабируемый Checkpoint-Restart. Локальные внеосновные операции.
Когда я впервые начал играть с кластерами, было хорошей идеей объединить все это неиспользуемое пространство в параллельную файловую систему. PVFS работал очень хорошо для этой цели.
что позволяет перейти к параллельной файловой системе /scratch, доступной для всех узлов. В этом есть технологический компонент (какую параллельную файловую систему развернет сайт?), Но есть и компонент политики: как долго будут храниться данные в этой файловой системе? это резервное копирование? /scratch часто подразумевает, что файлы не резервируются и фактически удаляются после некоторого периода отсутствия доступа (обычно две недели)