Хеширование с учетом локальности для бесконечного пространства признаков
Я пытаюсь обернуть голову вокруг локально-чувствительного хэширования в случае, когда вы не можете перечислить все возможные функции (например, лайки Facebook при сравнении пользователей). Есть ли способы решения этой проблемы?
Чувствительные к локальности алгоритмы хеширования, которые я видел до сих пор, зависят от конечных векторов длины k
где k
общее количество признаков (например, слов). В моем случае я заранее не знаю всего набора функций, но все же я хочу найти n-ближайших соседей для нового элемента в моей базе данных. Учитывая целевой размер базы данных, пересчет попарного сходства для каждой вставки невозможен.
Как я могу решить эту проблему? Кто-нибудь сталкивался с подобной проблемой и нашел решение?