Описание тега locality-sensitive-hash

Locality-sensitive hashing (LSH) is a method of probabilistic dimension reduction.
1 ответ

Пытаясь понять LSH через пример кода Python

Краткий код Python для изучения я здесь Вопрос A @ line 8 я не очень понимаю синтаксическое значение для "res = res << 1" для цели "get_signature" Вопрос B @ строка 49 (решено мной через другой Q & A) "xor = r1 ^ r2" на самом деле не имеет никакого …
22 июн '15 в 06:07
0 ответов

Информация о проверке бит хеширования с учетом локальных особенностей?

Так что у меня был свой взгляд на поисковик изображений в качестве личного проекта. Кажется, что ротационные инвариантные функции, такие как AKAZE, SURF, SIFT и т. Д. В OpenCV, довольно хороши для моей цели. Из личного тестирования AKAZE->MLDB работ…
24 мар '18 в 19:44
1 ответ

Использовать хеширование с учетом локальности для динамического набора данных

Я использую LSH для записей базы данных, и тем самым я создаю индекс (не индекс базы данных, простую хэш-карту), где подобные записи блокируются в одном и том же сегменте. База данных может содержать несколько миллионов записей. Мой вопрос касается …
1 ответ

Почему k и l для LSH используются для приблизительных ближайших соседей?

Во всех объяснениях, связанных с локальным хешированием (то есть http://en.wikipedia.org/wiki/Locality-sensitive_hashing) Они описывают, что генерируются k хеш-функций, но только х (l Зачем вообще генерировать k, а не просто генерировать l? Почему о…
0 ответов

Хеширование с учетом локальности для бесконечного пространства признаков

Я пытаюсь обернуть голову вокруг локально-чувствительного хэширования в случае, когда вы не можете перечислить все возможные функции (например, лайки Facebook при сравнении пользователей). Есть ли способы решения этой проблемы? Чувствительные к лока…
1 ответ

Как делать случайные проекции в LSH, когда есть числовые и категориальные данные?

Примечание. Использование LSH для запроса ближайшего соседа Предполагая, что набор данных имеет 5 функций (f1,f2,..,f5), где первые 2 являются числовыми, а 3 - категориальными. И одна или многие из этих категорий могут быть чем-то вроде имени пользо…
2 ответа

Генерация случайных хеш-функций для алгоритма LSH Minhash

Я программирую алгоритм хеширования в Java, который требует от меня генерирования произвольного числа случайных хеш-функций (в моем случае 240 хеш-функций) и запускаю любое количество целых чисел через него (в настоящий момент 2000). Для этого я ген…
1 ответ

Эффективная реализация Hashtable, с локальным свойством кеша (Хеш-таблица, чувствительная к локальности)

Я пытаюсь поиграть со структурой данных C (хэш-таблица). Я не использую никакую предварительно созданную библиотеку хеш-таблиц (например, STL), потому что я хочу лучше понять, как она работает. Поэтому здесь я создаю хеш-таблицу, содержащую список э…
16 июл '11 в 13:05
1 ответ

Хеширование с учетом локальных особенностей - что происходит, когда ведро пустое?

Предположим, я построил базу данных LSH согласно некоторому набору хэшей, и сейчас я начинаю запрашивать базу данных, чтобы найти приблизительных ближайших соседей. Есть ли какие-либо рекомендации относительно того, что происходит, когда вы вычисляе…
18 дек '16 в 21:54
4 ответа

Реализация хеширования с учетом локальных особенностей?

Существуют ли относительно простые для понимания (и простые в реализации) примеры хеш-зависимых от локальности хеш-функций в C/C++/Java/C#? Я хотел бы узнать больше о концепции и поэтому хочу попробовать реализацию на нескольких текстовых файлах, пр…
24 апр '11 в 10:10
1 ответ

Путаница в хешировании, используемая LSH

матрица M является матрицей подписей, которая создается с помощью Minhashing реальных данных, имеет документы в виде столбцов и слова в виде строк. Таким образом, столбец представляет документ. Теперь написано, что каждая полоса (b в количестве, r …
0 ответов

Сериализация против модели векторного пространства для minhash

Datasketch для minhash не использует модель векторного пространства, это быстрее, чем преобразование данных в модель векторного пространства для вычисления и сравнения minhash? Ссылка на набор данных: Datasketch
16 янв '18 в 08:24
1 ответ

Приблизительное сопоставление строк с использованием LSH

Я хотел бы приблизительно сопоставить строки с использованием хеширования, чувствительного к локальности. У меня есть много строк>10M, которые могут содержать опечатки. Для каждой строки я хотел бы сравнить все остальные строки и выбрать те, у котор…
04 авг '14 в 08:17
1 ответ

Два алгоритма для поиска ближайшего соседа с локально-чувствительным хешированием, какой?

В настоящее время я изучаю, как найти ближайшего соседа, используя хеширование с учетом локальных особенностей. Однако пока я читаю статьи и ищу в Интернете, я нашел два алгоритма для этого: 1- Используйте L количество хеш-таблиц с L числом случайны…
1 ответ

Объединение профилей в социальных сетях (локальное хеширование)

Мне было интересно, есть ли у кого-нибудь хороший материал для чтения по этой теме, который достаточно понятен, и я хочу создать программу, способную объединять различные профили в социальных сетях в один профиль. Так, например, если у меня есть стр…
2 ответа

Реализация локально-чувствительного хеширования с минимальным хешем

Я прочитал много уроков, документов и фрагментов кода, реализующих LSH (хеширование с учетом локальных особенностей) с минимальным хэшированием. LSH пытается найти коэффициент Жакара для двух множеств, хэшируя случайные подмножества и агрегируя по н…
07 янв '13 в 21:11
1 ответ

Поиск в локальном хешировании

Я пытаюсь понять раздел 5. этой статьи о LSH, в частности, как создать сгенерированные хэши. Цитирую связанный документ: Учитывая битовые векторы, состоящие из d битов каждый, мы выбираем N = O(n 1/(1+epsilon)) случайных перестановок битов. Для кажд…
4 ответа

Библиотеки LSH на Яве

Я ищу легковесную библиотеку Java, которая поддерживает поиск ближайших соседей с помощью локально-чувствительного хеширования для почти одинаково распределенных данных в многомерном (в моем случае 32) наборе данных с несколькими сотнями тысяч точек…
28 мар '12 в 14:57
1 ответ

Как создать хэши, чувствительные к локальности?

У меня уже есть алгоритм для создания хэшей, чувствительных к локальности, но как мне их объединить, чтобы воспользоваться их характеристиками (т. Е. Похожие элементы имеют близкие хэши (с расстоянием Хэмминга))? В коде Matlab я обнаружил, что они п…
5 ответов

Как понять локальное хеширование?

Я заметил, что LSH, кажется, хороший способ найти похожие элементы с большими свойствами. После прочтения статьи http://www.slaney.org/malcolm/yahoo/Slaney2008-LSHTutorial.pdf я все еще не понимаю эти формулы. Кто-нибудь знает блог или статью, котор…