Использование Elasticsearch для быстрой оценки сходства
Мне нужно найти решение для создания быстрого показателя сходства (средневзвешенное значение между сходством Жаккара и Соренсена-Дайса) между именем человека и примерно 1,5 миллионами имен, разделенных на 7 списков CSV.
Выполнив поиск в Интернете, я обнаружил, что, возможно, Elasticsearch может быть тем инструментом, который я ищу, но я был бы признателен за любые отзывы от всех, кто работал над подобными проблемами, и если они использовали ELK Stack или любой другой инструмент.
Любая подсказка по эксплуатации также будет оценена по достоинству. Решение, которое мне нужно разработать, должно возвращать оценку сходства наиболее похожего имени (с точки зрения среднего сходства жаккарда и кубика) с входным именем для каждого списка (их 7), если идеальное совпадение не найдено. , и должен сделать это примерно за 0,1 с.
Реальное решение включает в себя Java API, который распараллеливает операции оценки после фильтрации списков по первым двум буквам, но он замедляется по мере увеличения рабочей нагрузки и в конечном итоге выходит из строя. он должен обрабатывать до 50 поисковых запросов в секунду.