Как делать случайные проекции в LSH, когда есть числовые и категориальные данные?

Примечание. Использование LSH для запроса ближайшего соседа

Предполагая, что набор данных имеет 5 функций (f1,f2,..,f5), где первые 2 являются числовыми, а 3 - категориальными. И одна или многие из этих категорий могут быть чем-то вроде имени пользователя или темы, которые будут достаточно большими для кодирования.

Если мы используем Смешанное расстояние в качестве меры разногласий и используем его в хэш-функции, что должно быть или как выбрать случайные проекции для функции?

Это нормально, если мне нужно изменить HashFunction.

Пример данных

f1,f2,f3,f4,f5
89,43,aa,bq,wb
23,67,cd,zd,cs
98,32,aa,wb,cc
10,20,aq,zd,wb

1 ответ

Вы можете попробовать преобразовать категориальные функции в фиктивные. Вы можете проверить следующие параметры:

  • Кодировка, как это
  • Если у вас есть датафреймы, это просто

Надеюсь, поможет.