Использование wordnet (или некоторого простого словаря) для проверки того, является ли существительное исчисляемым или неисчисляемым из программы Java
Я нашел 2 библиотеки на Java - JWNL и JAWS. До сих пор мне кажется, что эти API-интерфейсы хороши для поиска наборов и гипонимов и тому подобных вещей. Знаете ли вы, есть ли какой-нибудь инструмент для использования wordnet, чтобы проверить, является ли существительное исчисляемым / неисчисляемым существительным? Я имею в виду, люди используют Wordnet для этой задачи? Иначе, что это за инструмент?
2 ответа
Если вы не можете найти простой источник, вы можете рассмотреть возможность создания собственного классификатора, т.е. написать свою собственную пользовательскую функцию
Факторы, которые необходимо учитывать:
- Есть некоторые английские словари, которые помечают существительные как (U) против (C) для неисчислимых против счетных, и вы, возможно, сможете найти его где-нибудь в Интернете.
- Вы можете посмотреть на биграммы в огромном корпусе, чтобы увидеть, используется ли существительное в смысле исчисляемого или неисчисляемого:
one boy
или жеthis boy
или жеthat boy
ноsome food
или жеa little bit of food
и т.п. - Есть много угловых случаев, которые вы должны учитывать:
I'd like some coffee
противI'd like a coffee
(сокращение от чашки кофе). Это становится сложным.
Этот вопрос очень актуален, хотя и не касается вашего Java-запроса. Все три ответа на этот вопрос очень хорошие.
Надеюсь это поможет.
Я не на 100% уверен, что вы собираетесь, но у WolframAlpha есть интерфейс для разработчиков, который вы можете использовать.
У них также, похоже, уже есть библиотека java, хотя бесплатная версия, по-видимому, ограничена 2k-запросами (не знаю, допустимо ли это ограничение).