Задать путь в файле свойств heidelTime для использования Stanford POS Tagger для немецкого языка?

Я пытаюсь обнаружить временную информацию в немецком тексте. Я попытался использовать конвейер Stanford CoreNLP, так как было бы очень полезно использовать информацию о разборе зависимостей на более поздних этапах (после временного тегирования), но, насколько я понимаю, нет способа установить интегрированный временный тегер CoreNLP на немецкий язык. Я прав в этом или есть, на самом деле, способ сделать это.

Сейчас я пытаюсь использовать HeidelTime для отдельного извлечения тампоральных меток. Я хочу использовать тег Stanford POS с ним. В файле config.props Heideltime я задаю путь к тегу Stanford POS следующим образом (с помощью windows):

model_path = C:\\Users\\milu\\Documents\\stanford-postagger-full-2017-06-09\\stanford-postagger-full-2017-06-09\\models
# leave this unset if you do not need one (e.g., /home/jannik/stanford-postagger-full-2014-01-04/tagger.config)
config_path =   

Это код, который я запускаю в NetBeans, за которым следует ошибка, которую я получаю. Что-то не так с тем, как я указываю путь к тегу POS?

public class RunHeideltimeInJava {


public static void main(String[] args) throws
        DocumentCreationTimeMissingException, ParseException {

    OutputType outtype = OutputType.XMI;
    POSTagger postagger = POSTagger.STANFORDPOSTAGGER;
    String conffile = "C:\\Users\\milu\\Documents\\NetBeansProjects\\TimeTagging\\src\\config.props";

    HeidelTimeStandalone hsNarratives = new HeidelTimeStandalone(Language.GERMAN,
            DocumentType.NARRATIVES, outtype, conffile, postagger);

    String narrativeText = "Ich habe letztes Wochenende neue Schuhe gekauft.";

    String xmiNarrativeOutput = hsNarratives.process(narrativeText);
    System.err.println("NARRATIVE*****" + xmiNarrativeOutput);
    String dctString = "2016-04-29";
    DateFormat df = new SimpleDateFormat("yyyy-MM-dd");
    Date dct = df.parse(dctString);
 }
}

Выход:

run:
Aug 25, 2017 9:54:31 AM de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone initialize
INFORMATION: HeidelTimeStandalone initialized with language german
Aug 25, 2017 9:54:31 AM de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone readConfigFile
INFORMATION: trying to read in file C:\Users\milue\Documents\NetBeansProjects\TimeTagging\src\config.props
Aug 25, 2017 9:54:33 AM de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone initialize
INFO: HeidelTime initialized
Aug 25, 2017 9:54:33 AM de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone initialize
INFO: JCas factory initialized
Aug 25, 2017 9:54:33 AM de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone process
INFO: Processing started
Exception in thread "main" java.lang.NoClassDefFoundError: edu/stanford/nlp/tagger/maxent/TaggerConfig
    at de.unihd.dbs.heideltime.standalone.components.impl.StanfordPOSTaggerWrapper.<init>(StanfordPOSTaggerWrapper.java:12)
    at de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone.establishPartOfSpeechInformation(HeidelTimeStandalone.java:391)
    at de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone.establishHeidelTimePreconditions(HeidelTimeStandalone.java:332)
    at de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone.process(HeidelTimeStandalone.java:516)
    at de.unihd.dbs.heideltime.standalone.HeidelTimeStandalone.process(HeidelTimeStandalone.java:449)
    at RunHeideltimeInJava.main(RunHeideltimeInJava.java:29)
Caused by: java.lang.ClassNotFoundException: edu.stanford.nlp.tagger.maxent.TaggerConfig
    at java.net.URLClassLoader.findClass(URLClassLoader.java:381)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:424)
    at sun.misc.Launcher$AppClassLoader.loadClass(Launcher.java:335)
    at java.lang.ClassLoader.loadClass(ClassLoader.java:357)
    ... 6 more
C:\Users\milu\AppData\Local\NetBeans\Cache\8.2\executor-snippets\run.xml:53: Java returned: 1
BUILD FAILED (total time: 2 seconds)

1 ответ

Согласно руководству Heideltime, вам просто нужно установить опцию языка на немецкий:java -jar de.unihd.dbs.heideltime.standalone.jar -l GERMAN, Затем Heideltime установит эту опцию для выбранного тега POS (TreeTagger или StanfordPosTagger).

Что касается ошибки TaggerConfig, у меня такое же сообщение при вызове Heidletime в командной строке с StanfordPosTagger даже для английского текста: java -jar de.unihd.dbs.heideltime.standalone.jar reference.txt -pos STANFORDPOSTAGGER,

Я следовал инструкциям, отредактировав файл конфигурации heideltime и добавив.jar-файл Stanford POS Tagger в CLASSPATH: https://github.com/HeidelTime/heideltime/wiki/StanfordPOSTaggerWrapper

Все работает хорошо, когда я использую TreeTagger для тегов части речи.

Другие вопросы по тегам