Современный анализатор зависимостей для русского языка

Есть ли какой-нибудь современный тэгер части речи + парсер зависимостей для русского языка? Мне нужен инструмент или сервис, который сможет обрабатывать простой текст и вывод:

  • деление на предложения
  • деление на токены
  • теги части речи (приветствуются детальные теги MSD)
  • леммы (базовые формы)
  • метки ролей зависимостей

Мне нужен инструмент для коммерческих целей. Это может быть либо проект с открытым исходным кодом с обученной статистической моделью, которую можно использовать в коммерческих целях (приобретается при необходимости), либо веб-API. В конце концов это может быть проприетарный двоичный файл с закрытым исходным кодом и проприетарной моделью. Все модели синтаксического анализа для русского языка, которые я обнаружил в Интернете, требуют использования TreeTagger, который 1) имеет очень недружелюбную лицензию, 2) старше 20 лет.

1 ответ

Чтобы построить (хороший) анализатор зависимостей, вам необходим банк деревьев зависимостей. Все команды, которые создают свои парсеры зависимостей, имеют доступ к таким банкам деревьев, но им не разрешено передавать данные. Поэтому вы можете получить парсер, но обычно не предварительно обученную модель.

Вот почему вы должны тренировать модель самостоятельно. Для русского языка существует банк зависимостей (SynTagRus). Я не знаю, сможете ли вы получить его в коммерческих целях. Может быть, эти сайты помогут вам:

https://github.com/UniversalDependencies/UD_Russian-SynTagRus
https://habrahabr.ru/post/148124/
http://www.ruscorpora.ru/index.html

Если вам удастся получить данные, обучение вашей собственной модели будет очень простой задачей. Или спросите здесь снова, или вы обязательно найдете достаточно руководств в Интернете (обучение парсеру совершенно одинаково, будь то русский или любой другой язык)

Другие вопросы по тегам