Некоторые извлеченные упоминания в кластерах Coreference имеют плохой формат в пакете neuralcoref

Я использую neuralcoref - пакет разрешения кореференции на основе spaCy .

У меня проблема при работе с neuralcoref. Я хочу выполнить разрешение кореференции для своего документа, а затем разделить его разрешенную версию на предложения. Я ожидаю, что количество предложений в исходном документе и его решенной версии будет одинаковым. но количество предложений в разрешенной версии меньше. Проверяю предложения и понимаю причину. В разрешенной версии каждое упоминание в тексте заменено наиболее репрезентативным объектом (назовем его MRE) в его кластере кореференции. Но: это MRE может быть упоминанием в середине предложения, поэтому его первое слово написано в нижнем регистре. или Этот MRE может быть расположен в конце предложения, поэтому в конце у него есть точка.

В первой ситуации предложение начинается со слова в нижнем регистре, и NLTK sent_tokenizer не может рассматривать его как предложение. Вторая ситуация приводит к тому, что у нас есть неправильная точка в середине предложения, и поэтому NLTK sent_tokenizer рассматривает это предложение как два предложения.

Я думаю, что нейронное ядро ​​должно использовать MRE в верхнем регистре, когда оно заменяется первым словом в предложении. Также neuralcoref должен опускать точку в конце упоминаний в кластерах Coreference.

Могу ли я настроить neuralcoref на эти изменения?

Заранее спасибо.

0 ответов

Другие вопросы по тегам