Ошибки запуска UIMA Ruta с использованием DKProCore Part-of-Speech Tagger (учебник по немецким новеллам)

Следуя этому руководству по пошаговой инструкции UIMA Ruta для немецких романов, я получаю следующую ошибку при запуске Main.ruta:

*SEVERE: Exception occurred
org.apache.uima.analysis_engine.AnalysisEngineProcessException
(...)
Caused by: java.io.IOException: Unable to locate model [de] in the 
following locations 
[classpath:/de/tudarmstadt/ukp/dkpro/core/treetagger/lib/tagger-de-
little-endian.par].  Make sure the environment variable 
'TREETAGGER_HOME' or 'TAGDIR' or the system property 'treetagger.home' 
point to the TreeTagger installation directory.*

Я проверил местоположение моего TREETAGGER_HOME, которое задано в моих переменных окружения и в Eclipse. Я также подумал об использовании более поздней версии тега дерева и обнаружил следующие ошибки:

1.7.0 SEVERE: возникла исключительная ситуация org.apache.uima.analysis_engine.AnalysisEngineProcessException: обработка аннотатора завершилась неудачно. (...) Причина: java.lang.ClassNotFoundException: de.tudarmstadt.ukp.dkpro.core.api.parameter.Messages at java.net.URLClassLoader.findClass(Неизвестный источник) в java.lang.ClassLoader.loadClass(Неизвестный источник) в sun.misc.Launcher$AppClassLoader.loadClass(Неизвестный источник) в java.lang.ClassLoader.loadClass(Неизвестный источник) ... еще 43

1.8.0 SEVERE: Возникло исключение org.apache.uima.analysis_engine.AnalysisEngineProcessException: "Неподдерживаемый язык [de]." at de.tudarmstadt.uk (...) Причина: java.io.IOException: Невозможно загрузить ресурс [classpath:/de/tudarmstadt/ukp/dkpro/core/treetagger/lib/tagger-de- le.properties]: FileNotFoundException: файл не найден в [classpath: / de / tudarmstadt / ukp / dkpro / core / treetagger / lib / tagger-de-le.properties]

Увидев ошибку в последней попытке, я еще раз проверил языковые параметры для немецкого языка, которые представлены в необходимых форматах. Любой совет, как решить эту проблему?

1 ответ

Проблема в том, что лицензия TreeTagger запрещает распространять ее через Maven Central.

Это длинный ответ на вопрос о том, как создавать и устанавливать модели TreeTagger локально. Вы можете посмотреть, например, инструкции, предоставленные проектом Excitement, который также использует DKPro Core.

Я бы порекомендовал вам попробовать использовать другой тегер вместо TreeTagger, например OpenNlpPosTagger из DKPro Core. Вместо de.tudarmstadt.ukp.dkpro.core.treetagger-asl использование de.tudarmstadt.ukp.dkpro.core.opennlp-asl в файле pom.xml.

<dependency>
  <groupId>de.tudarmstadt.ukp.dkpro.core</groupId>
  <artifactId>de.tudarmstadt.ukp.dkpro.core.opennlp-asl</artifactId>
  <version>1.5.0</version>
</dependency>

А в скрипте POSTag.ruta попробуйте заменить импорт /exec TreeTaggerPosLemmaTT4J с этими:

UIMAFIT de.tudarmstadt.ukp.dkpro.core.opennlp.OpenNlpPosTagger;
...snip...
Document{-> EXEC(OpenNlpPosTagger, {pos.POS, Lemma})}:

Предупреждение: я не пробовал запускать это;)

Отказ от ответственности: я работаю над DKPro Core.

Другие вопросы по тегам