Имеет ли смысл использовать детерминированный ациклический конечный автомат (DAFSA или DAWG) для хранения отпечатков пальцев документа?

Question

Имеет ли смысл использовать детерминированный ациклический конечный автомат (DAFSA или DAWG) для хранения отпечатков пальцев документа?

Допустим, у вас есть огромная коллекция документов (например, весь Интернет), и вы не хотите обрабатывать какой-либо документ дважды.

Я полагаю, что наиболее распространенный способ управления такой ситуацией - хранить контрольные суммы документов, которые вы уже обработали, а затем для каждого нового документа проверять наличие его отпечатка пальца в хэш-таблице или что-то, чтобы узнать, является ли это известным документом или не.

Проблема в том, что, когда корпус растет, даже отпечатки пальцев занимают слишком много места, поэтому я подумал об использовании детерминированного ациклического автомата конечного состояния (DAFSA) для хранения отпечатков пальцев, но я не уверен, будет ли он эффективным Поскольку алгоритмы хеширования обычно хорошо сбалансированы, я имею в виду, что если я получу N-байтовый отпечаток, все байты имеют одинаковую вероятность.

Может ли DAFSA действительно уменьшить пространство, необходимое для хранения отпечатков пальцев в этих условиях? И если нет, то каковы современные решения для решения такого рода проблем?

0

data-structures data-storage fingerprinting dawg

Источник

user1608467 10 мар '19 в 03:39

0 ответов

Другие вопросы по тегам data-structures data-storage fingerprinting dawg