Разбор необработанного текста с помощью MaltParser на Java

Я обнаружил, что NLKT в Python делает это с помощью функции * raw_parse *, но мне нужно использовать Java. Я обнаружил, что у cleartk есть оболочка MaltParser, но нет документации по этому поводу. Я ищу функцию или проект, который сначала преобразует необработанный текст на английском языке в файл conll, который MaltParser может использовать, и анализирует его с помощью MaltParser. Любая помощь приветствуется.

1 ответ

В папке examples /apiexamples/srcex есть примеры, идущие с дистрибутивом MaltParser 1.7.2.

Однако эти примеры показывают только, как запустить MaltParser программно после того, как токенизация и pos-тегирование уже выполнены (и после того, как выходные данные этих шагов были преобразованы в CONLL-подобный формат).

Поскольку в настоящее время я не могу предложить лучшую (более простую / короткую) альтернативу, по крайней мере, я мог бы поделиться с вами ссылкой на скрипт Groovy, который выполняет токенизацию, тегирование части речи (с использованием OpenNLP) и анализ зависимостей (с помощью MaltParser). Инструменты сделаны совместимыми с использованием UIMA. Если вы знакомы с Maven, было бы довольно просто получить версию этого скрипта на Java.

Имейте в виду, это не лучший ответ, но на данный момент, возможно, лучше, чем ничего.

Примечание: я являюсь разработчиком Apache UIMA и DKPro Core (проекта, на который указывает ссылка).

Другие вопросы по тегам