Обучение Stanford RSS и Shift Reduce парсерам для нового языка

Я хотел бы обучить Stanford Parsers (RSS и Shift Reduce) на основе избирательного округа существующему банку деревьев, но не могу найти достаточно информации в Интернете, чтобы иметь возможность это сделать. Два ключевых вопроса:

  1. В каком формате я должен экспортировать свой древовидный банк, чтобы иметь возможность обучать каждого парсера? (Я заметил, что для синтаксического анализатора SR следует использовать "Стандартный формат Treebank", но я не могу найти спецификацию того, как этот формат выглядит. Если это тот же формат, который используется в PENN Treebank, как деревья должны быть разделены? один файл в соответствии с разделителями новой строки? В отдельных файлах?)

  2. Я пытаюсь это программно, написав некоторый код Java в IDE. Предполагая, что у меня теперь есть правильные файлы, как бы я обучил каждый из этих парсеров? Какие вызовы методов должны использоваться в каком порядке?

Я не могу понять это из исходного кода или Javadocs для каждого из этих анализаторов. Любой совет будет принята с благодарностью.

0 ответов

Другие вопросы по тегам