Как TreeTagger получает лемму слова?

Я использую TreeTagger, чтобы получить леммы слов на испанском, но я заметил, что слишком много слов не преобразованы, как должно быть. Я хотел бы знать, как работает эта операция, если она выполняется с помощью таких методов, как деревья решений или алгоритмы машинного обучения, или она просто содержит список слов с соответствующей леммой. Кто-то знает это? Спасибо!!

1 ответ

На основании личного общения по электронной почте с Х. Шмидом, автором TreeTagger, ответ на ваш вопрос:

Функция лемматизации основана на проекте XTAG, который включает морфологический анализатор. В рамках проекта XTAG были проанализированы несколько корпусов. Рассматривая TreeTagger, особенно актуален анализ корпуса Penn Treebank, поскольку этот корпус является обучающим корпусом для английского файла параметров TreeTagger. Учитывая лемматизацию, леммы просто хранятся в лексиконе. TreeTagger, наконец, использует этот лексикон в качестве таблицы поиска.

Следовательно, с TreeTagger вы можете получить только те леммы, которые есть в лексиконе.

Если вам нужна дополнительная функциональность в отношении лемматизации помимо опций в TreeeTagger, вам понадобится морфологический анализатор и, в зависимости от вашего подхода, подходящий учебный корпус, хотя это не кажется обязательным, так как несколько анализаторов работают довольно хорошо, даже если непосредственно применяются к корпус интереса для анализа.

Другие вопросы по тегам