Определение слов с помощью Java
Мне было интересно, есть ли в качестве API в Java, который может определять слова и найти происхождение слов. Я помню, как некоторое время назад искал это и видел "Apache Commons", но я не уверен.
Таким образом, в принципе, пользователь сможет ввести слово "переполнение", тогда программа сможет определить слово. Поэтому я ищу API, который может определить слова и найти происхождение слов. Таким образом, слово "recherche" будет иметь происхождение "французский".
4 ответа
WordNet даст вам половину того, что вы ищете: вы можете найти определение слова. Обратите внимание, что существует несколько реализаций WordNet для Java: jwi, jaws, Dan Bikel, WordnetAPI. Некоторые из них могут быть проще в использовании, чем jwordnet, предложенный miku (я использовал только челюсти и jwi).
Примечание: WordNet не даст вам происхождения (AFAIK). Я не знаю о программном обеспечении, которое делает.
Примечание. Вам нужно будет указать лемму слова, чтобы можно было найти его в словаре. Это означает, что вам придется применять некоторые методы обработки естественного языка (NLP), если вы хотите сделать это автоматически в документе с произвольным текстом (который может содержать перекошенные формы). Если вы пойдете по этому пути, я бы предложил плагин Morph проекта GATE.
Wordnet может быть? Для этого есть Java-оболочка: http://sourceforge.net/projects/jwordnet/
Еще один список инструментов НЛП:
Чтобы определить язык:
Есть веб-сайт для этимологии: http://www.etymonline.com/
Это дает результат: recherche 1722, от о. recherché "тщательно разыскивается", стр. rechercher "разыскивает". Обычно используется 19с. пищи, стилей и т. д., чтобы обозначить неясное превосходство.
Не знаю, получили ли они API, но используют какой-то скрипт для запроса.
Так что найдите хороший способ обнаружения "о." в предложении выше.
Ура, Эрик
Вы ищете JWKTL?
"Викисловарь - это многоязычный, свободно доступный в Интернете словарь, тезаурус и разговорник, разработанный как лексический спутник Википедии. В последнее время он был признан многообещающим лексическим семантическим ресурсом для приложений обработки естественного языка".
Используя это, вы можете увидеть этимологию слов.