Внедрение LSA для эластичного поискового индекса

Я только что провел последние пару дней, обдумывая реализацию скрытого семантического анализа для документов, которые проиндексированы в asticsearch. Первым шагом является построение матрицы термина-документа. Так что я думаю использовать библиотеку Stanford nlp, которая принимает в качестве входных данных индекс Значение в нижнем регистре, удаление стоп-слов, может быть, основание и генерирование матрицы, или это просто возможно с использованием JavaS API-интерфейс asticsearch для ее построения.?

1 ответ

Да, вы можете использовать _analyze конечная точка упругого поиска и сделать tokenizing/character mapping/stemming/... на ваш текст и получить результат обратно.

Другие вопросы по тегам