Что является лучшим эквивалентом файлового сервера в Google Compute Engine

Мы пытаемся перейти от центра обработки данных к Google Compute Engine. Хотя мы понимаем, как мы можем настроить экземпляры и развернуть рабочую нагрузку, мы не уверены, что является лучшим эквивалентом хранения данных. Мы получаем данные один раз в день, и каждый день на каждом сервере проводятся исследования данных, полученных за последние 1-2 года. Есть указатели?

2 ответа

Похоже, вы ищете общий файловый сервер, такой как NFS. Вы можете запустить сервер NFS на одном экземпляре GCE, чтобы распределить данные между различными вычислительными узлами. Проект документации Linux имеет разумное руководство.

Другой вариант - использовать хранилище объектов, такое как Google Cloud Storage, которое позволяет хранить двоичные объекты двоичных данных под разными именами (немного похоже на облачную файловую систему). Если вашему программному обеспечению необходимо использовать стандартные команды файловой системы для доступа к данным, файловую систему FUSE, такую ​​как s3fuse, можно использовать для экспорта корзины Google Storage в виде набора файлов и каталогов на каждом компьютере.

Как выбрать между двумя вариантами:

  1. Если вы уже используете NFS, возможно, вам будет удобнее продолжить работу с той же конфигурацией, что и на месте. Если нет, я бы предложил попробовать s3fuse и GCS.
  2. Если вы запускаете свой собственный NFS-сервер, вы должны нести ответственность за любые резервные копии и так далее, которые вам могут понадобиться. Облачное хранилище Google копируется между несколькими сайтами, поэтому даже если на одном сайте есть обслуживание, вы все равно можете читать и записывать свои данные.
  3. Файловые системы FUSE, такие как s3fuse, как правило, поддерживают операции чтения и записи, но могут не поддерживать сложное поведение блокировки или подобное, как в NFS.
  4. С вас могут взимать плату за количество операций чтения и записи, которые вы делаете для данных, хранящихся в GCS. (Я не помню, я думаю, что сетевой трафик в / из GCS от GCE бесплатный.) Если вы решите запустить свой собственный NFS-сервер, вам придется заплатить за работающий экземпляр и постоянный диск, а также за операции чтения и записи на диск.

Вы также можете быть заинтересованы в этом другом вопросе переполнения стека, который охватывает некоторые из тех же вопросов: Варианты хранения для бездисковых серверов.

Просто чтобы присоединиться и повторить ответ Э. Андерсона, если вы уже используете NFS и думаете об использовании s3fuse, вы также можете взглянуть на gcsfuse, который выполняет аналогичную работу, но (как мне сказали) имеет лучшую производительность на GCS (см. Gcsfuse-docs для всех видов дополнительных технических деталей).

Другие вопросы по тегам