Функция дедупликации OpenStack (Swift) или CEPH? или какие-либо кластерные решения с дедупликацией HA?

Question

Функция дедупликации OpenStack (Swift) или CEPH? или какие-либо кластерные решения с дедупликацией HA?

Для проекта owncloud (или nextcloud) нам нужно добавить большое количество хранилища, я проверял все параметры, такие как: CEPH, Openstack Swift/Cinder, GlusterFS, SDFS и Tahoe-lafs.

С помощью этого сервиса мы ожидаем, что пользователи добавят много одинаковых файлов, поэтому дедупликация для нас очень важна. До сих пор единственными решениями для дедупликации данных кластерного хранилища были бы SDFS и Tahoe-lafs. Однако мы обеспокоены тем, что эти два аспекта являются Java и Python и сильно повредят процессору. (* Да, дедупликация, скорее всего, будет означать больше ОЗУ и ЦП)

Возможно, у кого-то из вас есть лучшее решение? * файловая система дедупликации (например, ZSF) не будет работать, так как данные хранятся на нескольких машинах (HA Cluster).

2

ceph owncloud openstack-swift glusterfs openstack-cinder

Источник

user743919 23 май '17 в 16:41

1 ответ

Другие вопросы по тегам ceph owncloud openstack-swift glusterfs openstack-cinder

user2138743 30 авг '17 в 06:43 2017-08-30 06:43 · Answer 1 · 2017-08-30 06:43

Это не полное решение, которое, я думаю, вы ищете, а скорее библиотека дедупликации с открытым исходным кодом для Node.js с нативным связыванием, написанным на C++, и эталонной реализацией, написанной на Javascript:

https://github.com/ronomon/deduplication

Это должно быть достаточно быстро, если вы можете самостоятельно выполнить индексацию, используя хранилище KV с поддержкой LSM-Tree.