База данных для хранения больших документов
Кто-нибудь может предложить решение для базы данных для хранения больших документов, которые будут иметь несколько разветвленных ревизий? Частичное редактирование контента должно быть возможным без обновления всего документа.
Я смотрел на базы данных XML и задавался вопросом о их пригодности, или, возможно, даже использовал DVCS (например, Mercurial).
Желательно иметь привязки Python.
2 ответа
Попробуйте Fossil - он имеет хороший алгоритм дельта-кодирования и сохраняет все версии. Он поддерживается одной базой данных SQLite и имеет веб-интерфейс и интерфейс командной строки.
Это зависит от вашего поведения хранилища и варианта использования. Если вы планируете хранить огромное количество "ревизий документов" и сохранять исторические версии и можете соответствовать шаблону "один раз для чтения-много", вам следует рассмотреть что-то вроде Hadoop HDFS. Это требует много (дешевой) инфраструктуры для запуска вашего кластера, но вы сможете со временем добавлять ревизии / данные и сможете быстро их искать, используя алгоритм MapReduce.