Рассчитать концептуальное и относительное сходство двух слов в Java

Я реализую формулу читабельности в Java на основе этой статьи.

Я достиг точки, где мне нужно вычислить концептуальное и реляционное сходство двух или более слов.

Они говорят:

Мы используем инструменты латентного семантического анализа (LSA) для вычисления сходства слов. LSA может извлекать семантическую информацию, включая сходство, из матрицы совместного использования слова и документа. Совпадения слов / терминов подсчитываются в движущемся окне фиксированного размера, которое сканирует весь корпус. Модели совместного использования, использующие размеры окон +-1 и +-4, рассматриваются как реляционное сходство и концептуальные семантические модели соответственно.

Я пытался увидеть некоторые реализации LSA, такие как этот, но не смог найти простой способ получить то, что я хочу.

Предположительно, мне нужна матрица, основанная на словах, поэтому я попытался использовать библиотеку WS4J для вычисления матрицы на основе двух массивов строк.

WS4J также имеет метод calcRelatednessOfWords() но полученные результаты не совпадают с показанными в статье.

Есть ли библиотека, которая предлагает то, что я хочу? Или кто-нибудь может указать мне правильное направление?

0 ответов

Другие вопросы по тегам