Разбор необработанного текста с помощью MaltParser на Java

Question

Разбор необработанного текста с помощью MaltParser на Java

Я обнаружил, что NLKT в Python делает это с помощью функции * raw_parse *, но мне нужно использовать Java. Я обнаружил, что у cleartk есть оболочка MaltParser, но нет документации по этому поводу. Я ищу функцию или проект, который сначала преобразует необработанный текст на английском языке в файл conll, который MaltParser может использовать, и анализирует его с помощью MaltParser. Любая помощь приветствуется.

3

java parsing nlp text-parsing cleartk

Источник

user811008 30 июн '13 в 17:06

1 ответ

Другие вопросы по тегам java parsing nlp text-parsing cleartk

user2511197 24 июл '13 в 19:08 2013-07-24 19:08 · Answer 1 · 2013-07-24 19:08

В папке examples /apiexamples/srcex есть примеры, идущие с дистрибутивом MaltParser 1.7.2.

Однако эти примеры показывают только, как запустить MaltParser программно после того, как токенизация и pos-тегирование уже выполнены (и после того, как выходные данные этих шагов были преобразованы в CONLL-подобный формат).

Поскольку в настоящее время я не могу предложить лучшую (более простую / короткую) альтернативу, по крайней мере, я мог бы поделиться с вами ссылкой на скрипт Groovy, который выполняет токенизацию, тегирование части речи (с использованием OpenNLP) и анализ зависимостей (с помощью MaltParser). Инструменты сделаны совместимыми с использованием UIMA. Если вы знакомы с Maven, было бы довольно просто получить версию этого скрипта на Java.

Имейте в виду, это не лучший ответ, но на данный момент, возможно, лучше, чем ничего.

Примечание: я являюсь разработчиком Apache UIMA и DKPro Core (проекта, на который указывает ссылка).