Рассчитать концептуальное и относительное сходство двух слов в Java
Я реализую формулу читабельности в Java на основе этой статьи.
Я достиг точки, где мне нужно вычислить концептуальное и реляционное сходство двух или более слов.
Они говорят:
Мы используем инструменты латентного семантического анализа (LSA) для вычисления сходства слов. LSA может извлекать семантическую информацию, включая сходство, из матрицы совместного использования слова и документа. Совпадения слов / терминов подсчитываются в движущемся окне фиксированного размера, которое сканирует весь корпус. Модели совместного использования, использующие размеры окон +-1 и +-4, рассматриваются как реляционное сходство и концептуальные семантические модели соответственно.
Я пытался увидеть некоторые реализации LSA, такие как этот, но не смог найти простой способ получить то, что я хочу.
Предположительно, мне нужна матрица, основанная на словах, поэтому я попытался использовать библиотеку WS4J для вычисления матрицы на основе двух массивов строк.
WS4J также имеет метод calcRelatednessOfWords()
но полученные результаты не совпадают с показанными в статье.
Есть ли библиотека, которая предлагает то, что я хочу? Или кто-нибудь может указать мне правильное направление?