Имеет ли смысл использовать детерминированный ациклический конечный автомат (DAFSA или DAWG) для хранения отпечатков пальцев документа?
Допустим, у вас есть огромная коллекция документов (например, весь Интернет), и вы не хотите обрабатывать какой-либо документ дважды.
Я полагаю, что наиболее распространенный способ управления такой ситуацией - хранить контрольные суммы документов, которые вы уже обработали, а затем для каждого нового документа проверять наличие его отпечатка пальца в хэш-таблице или что-то, чтобы узнать, является ли это известным документом или не.
Проблема в том, что, когда корпус растет, даже отпечатки пальцев занимают слишком много места, поэтому я подумал об использовании детерминированного ациклического автомата конечного состояния (DAFSA) для хранения отпечатков пальцев, но я не уверен, будет ли он эффективным Поскольку алгоритмы хеширования обычно хорошо сбалансированы, я имею в виду, что если я получу N-байтовый отпечаток, все байты имеют одинаковую вероятность.
Может ли DAFSA действительно уменьшить пространство, необходимое для хранения отпечатков пальцев в этих условиях? И если нет, то каковы современные решения для решения такого рода проблем?