Несколько приложений, использующих копии каталога в сети хранения данных
У меня есть приложение (Endeca), которое является файловой поисковой системой. У клиента есть серверы Linux 100, все они подключены к одной и той же сети SAN (очень быстро, по оптоволоконному каналу). В настоящее время каждый из этих 100 серверов использует один и тот же набор файлов. В настоящее время каждый сервер имеет свою собственную копию индекса (приблизительно 4 гигабайта, то есть всего 400 гигабайт).
Я хотел бы иметь один каталог и 100 виртуальных копий этого каталога. Если приложению необходимо внести изменения в какой-либо из файлов в этом каталоге, только тогда начнется создание отличной копии исходной папки.
Итак, моя идея такова: все 100 начинают использовать один и тот же каталог (но каждый думает, что у них есть своя копия, и они не знают ничего лучше). По мере появления изменений в Linux/SAN потенциально может быть до 100 копий (теперь немного других) оригинала.
Возможно ли что-то подобное?
Причина, по которой я исследую этот подход, заключается в сокращении времени передачи файлов и дискового пространства. Нам нужно будет только один раз скопировать файлы индекса 4 ГБ в SAN и создать виртуальные копии. Если бы никаких изменений не произошло, мы бы использовали только 4 концерта вместо 400.
Заранее спасибо!
2 ответа
Какую версию Endeca вы используете? Механизм MDEX7 обладает способностью кластеризации, при которой все узлы-лидеры и последователи читают из одного и того же набора файлов, поэтому до тех пор, пока файлы используются совместно (скажем, через NAS), у вас может быть несколько модулей, работающих на разных компьютерах, поддерживаемых одним и тем же набором. индексных файлов. Только узел-лидер будет иметь возможность изменять файлы, сохраняя согласованность изменений, затем узлы-последователи будут уведомлены координатором кластера, когда изменения будут готовы к "подхвату".
В серии MDEX 6 вы, вероятно, могли бы достичь чего-то подобного, если бы файлы индекса были доступны только для чтения. Индексация в V6 обычно происходит на другом компьютере, и целевой набор индексных файлов обычно заменяется, как только новый индекс готов. Это, однако, не поможет вам, если вам нужны частичные обновления.
Дедупликация Netapp звучит интересно, Endeca никогда не проверяла функциональность, поэтому я не уверен, с какими проблемами вы столкнетесь.
Лучшее решение здесь - использовать функциональность "de-dupe" на уровне SAN. Разные поставщики могут называть это по-разному, но это то, о чем я говорю:
Все 100 "виртуальных" копий будут использовать одинаковые блоки физического диска в сети SAN. SAN потребуется выделять новые блоки только в случае внесения изменений в конкретную копию файла. Затем для этой копии будет выделен новый блок, но оставшиеся 99 копий будут продолжать использовать старый блок, что значительно снижает требования к дисковому пространству.