Как делать случайные проекции в LSH, когда есть числовые и категориальные данные?
Примечание. Использование LSH для запроса ближайшего соседа
Предполагая, что набор данных имеет 5 функций (f1,f2,..,f5), где первые 2 являются числовыми, а 3 - категориальными. И одна или многие из этих категорий могут быть чем-то вроде имени пользователя или темы, которые будут достаточно большими для кодирования.
Если мы используем Смешанное расстояние в качестве меры разногласий и используем его в хэш-функции, что должно быть или как выбрать случайные проекции для функции?
Это нормально, если мне нужно изменить HashFunction.
Пример данных
f1,f2,f3,f4,f5
89,43,aa,bq,wb
23,67,cd,zd,cs
98,32,aa,wb,cc
10,20,aq,zd,wb
1 ответ
Вы можете попробовать преобразовать категориальные функции в фиктивные. Вы можете проверить следующие параметры:
Надеюсь, поможет.