Что такое пустое пространство / файловая система в HPC

Я изучаю приложения HPC и параллельные файловые системы. Я столкнулся с термином "чистое пространство" и "файловая система".

Я не могу представить, где существует это пространство для царапин. Это на вычислительном узле в виде смонтированной файловой системы / нуля или в главном пространстве хранения.

Каково это содержание.

Является ли пространство с нулями независимым от каждого вычислительного узла, или два или более узлов могут совместно использовать одно пространство с нулями.

Допустим, у меня есть файл 123.txt, который я хочу обрабатывать параллельно. Будет ли в пустом месте части этого файла или весь файл будет скопирован.

Я запутался и нигде в гугле нет четкого описания. Пожалуйста, укажите на некоторых.

Большое спасибо.

2 ответа

Решение

Все зависит от того, как был настроен кластер и что нужно пользователям. Когда вам предоставляется доступ к кластеру, вам также должна быть предоставлена ​​некоторая информация о том, как он должен использоваться, который должен ответить на большинство ваших вопросов.

В одном из кластеров, с которыми я работаю, NFS используется для долговременного хранения, а некоторое пространство Luster доступно для пустых рабочих мест. И NFS, и Lustre видны всеми узлами. Каждый из узлов также имеет некоторое пространство для царапин на узле, которое может видеть только этот узел.

Если вы хотите, чтобы ваша работа работала с 123.txt параллельно, вы можете скопировать 123.txt в общее чистое пространство (Luster) или скопировать его на каждое из ваших чистых пространств узла в файле работы.

for i in `cat $PBS_NODEFILE | sort -u ` ; do scp 123.txt $i:/scratch ; done

Как только у каждого узла есть копия, вы можете запустить свою работу. По завершении работы вам необходимо скопировать результаты в постоянное хранилище, поскольку кластеры часто запускают сценарии для очистки пустого пространства.

Существует много разных способов продумать или развернуть "чистое пространство" или "чистую файловую систему".

Допустим, у вас есть кластер узлов Linux, и у всех этих узлов есть жесткий диск. Вы можете представить себе пространство / нуля, локальное для каждого узла. Поскольку образ ОС будет относительно небольшим, и в настоящее время невозможно приобрести что-либо меньшее, чем терабайтный диск, в результате у узла будет почти терабайт памяти для использования.

Что бы вы сделали с этим локальным хранилищем узла? Ох, много всего. Масштабируемый Checkpoint-Restart. Локальные внеосновные операции.

Когда я впервые начал играть с кластерами, было хорошей идеей объединить все это неиспользуемое пространство в параллельную файловую систему. PVFS работал очень хорошо для этой цели.

что позволяет перейти к параллельной файловой системе /scratch, доступной для всех узлов. В этом есть технологический компонент (какую параллельную файловую систему развернет сайт?), Но есть и компонент политики: как долго будут храниться данные в этой файловой системе? это резервное копирование? /scratch часто подразумевает, что файлы не резервируются и фактически удаляются после некоторого периода отсутствия доступа (обычно две недели)

Другие вопросы по тегам