Функция дедупликации OpenStack (Swift) или CEPH? или какие-либо кластерные решения с дедупликацией HA?

Для проекта owncloud (или nextcloud) нам нужно добавить большое количество хранилища, я проверял все параметры, такие как: CEPH, Openstack Swift/Cinder, GlusterFS, SDFS и Tahoe-lafs.

С помощью этого сервиса мы ожидаем, что пользователи добавят много одинаковых файлов, поэтому дедупликация для нас очень важна. До сих пор единственными решениями для дедупликации данных кластерного хранилища были бы SDFS и Tahoe-lafs. Однако мы обеспокоены тем, что эти два аспекта являются Java и Python и сильно повредят процессору. (* Да, дедупликация, скорее всего, будет означать больше ОЗУ и ЦП)

Возможно, у кого-то из вас есть лучшее решение? * файловая система дедупликации (например, ZSF) не будет работать, так как данные хранятся на нескольких машинах (HA Cluster).

1 ответ

Это не полное решение, которое, я думаю, вы ищете, а скорее библиотека дедупликации с открытым исходным кодом для Node.js с нативным связыванием, написанным на C++, и эталонной реализацией, написанной на Javascript:

https://github.com/ronomon/deduplication

Это должно быть достаточно быстро, если вы можете самостоятельно выполнить индексацию, используя хранилище KV с поддержкой LSM-Tree.

Другие вопросы по тегам