Получить определенные узлы из дерева разбора

Question

Получить определенные узлы из дерева разбора

Я работаю над проектом, связанным с разрешением анафоры по алгоритму Хоббса. Я проанализировал мой текст, используя анализатор Стэнфорда, и теперь я хотел бы манипулировать узлами, чтобы реализовать мой алгоритм.

На данный момент я не понимаю, как:

Доступ к узлу на основе его POS-тега (например, мне нужно начать с местоимения - как мне получить все местоимения?).
Используйте посетителей. Я немного новичок в Java, но в C++ мне нужно было реализовать функтор Visitor, а затем работать над его хуками. Я не мог найти много для структуры дерева Стэнфордского парсера все же. Это jgrapht? Если да, не могли бы вы дать мне несколько указателей на фрагменты кода?

3

java nlp stanford-nlp jgrapht

Источник

user371613 06 май '12 в 22:28

2 ответа

Решение

Вот простой пример, который анализирует предложение и находит все местоимения.

private static ArrayList<Tree> findPro(Tree t) {
    ArrayList<Tree> pronouns = new ArrayList<Tree>();
    if (t.label().value().equals("PRP"))
        pronouns.add(t);
    else
        for (Tree child : t.children())
            pronouns.addAll(findPro(child));
    return pronouns;
}

public static void main(String[] args) {

    LexicalizedParser parser = LexicalizedParser.loadModel();
    Tree x = parser.apply("The dog walks and he barks .");
    System.out.println(x);
    ArrayList<Tree> pronouns = findPro(x);
    System.out.println("All Pronouns: " + pronouns);

}

Это печатает:

    (ROOT (S (S (NP (DT The) (NN dog)) (VP (VBZ walks))) (CC and) (S (NP (PRP he)) (VP (VBZ barks))) (. .)))
    All Pronouns: [(PRP he)]

5

Источник

user247985 07 май '12 в 02:43

Другие вопросы по тегам java nlp stanford-nlp jgrapht

user235019 08 май '12 в 04:13 2012-05-08 04:13 · Accepted Answer · 2012-05-08 04:13

Ответ @dhg работает отлично, но вот еще два варианта, о которых также может быть полезно знать:

Tree реализует класс Iterable, Вы можете перебрать все узлы Treeили, строго говоря, поддеревья, возглавляемые каждым узлом в обходе предварительного заказа, с:
```
for (Tree subtree : t) { 
    if (subtree.label().value().equals("PRP")) {
        pronouns.add(subtree);
    }
}
```
Вы также можете получить только узлы, которые удовлетворяют некоторым (потенциально довольно сложным образцам), используя tregex, который ведет себя скорее как java.util.regex разрешив сопоставления с образцом над деревьями. Вы бы хотели что-то вроде:
```
TregexPattern tgrepPattern = TregexPattern.compile("PRP");
TregexMatcher m = tgrepPattern.matcher(t);
while (m.find()) {
    Tree subtree = m.getMatch();
    pronouns.add(subtree);
}
```