Внедрение LSA для эластичного поискового индекса
Я только что провел последние пару дней, обдумывая реализацию скрытого семантического анализа для документов, которые проиндексированы в asticsearch. Первым шагом является построение матрицы термина-документа. Так что я думаю использовать библиотеку Stanford nlp, которая принимает в качестве входных данных индекс Значение в нижнем регистре, удаление стоп-слов, может быть, основание и генерирование матрицы, или это просто возможно с использованием JavaS API-интерфейс asticsearch для ее построения.?
1 ответ
Да, вы можете использовать _analyze
конечная точка упругого поиска и сделать tokenizing/character mapping/stemming/...
на ваш текст и получить результат обратно.