Сходство между текстовыми запросами в векторном пространстве для Приблизительного ближайшего соседа?
Я хочу реализовать систему, которая кеширует наиболее популярные запросы и, учитывая новый запрос, пытается найти аналогичный запрос в кеше и вернуть тот же результат. Так как я хочу сделать это как можно более общим (запросы могут быть короткими текстами, изображениями или даже звуковыми дорожками), я использую подход Approximate Nearest Neighbor (ANN), который основан на представлении запроса в векторном пространстве.
Мой вопрос: каков наиболее эффективный способ представления запроса в виде вектора (который будет использоваться в качестве входных данных в ANN)?