UIMA RUTA вопрос соответствия слов

Я пытаюсь сопоставить несколько многословных токенов, используя UIMA RUTA 2.6.0. И есть некоторые фразы, которые частично равны друг другу, например, в том же файле у меня есть следующие записи: "включает", "включает", "в этом", "в".

В моем входном файле есть следующий фрагмент текста: "1." Агенты или сотрудники "включают директоров...". Очевидно, что есть совпадение "включает", но если в списке слов присутствуют другие выше 3 записи, то совпадение не будет найдено. Более того, упорядочение этих записей в списке слов не зависит от совпадения: всегда происходит сбой.

И эта проблема возникает не только в одном файле. Итак, вопрос: как я могу это исправить? Может быть, какие-то настройки аннотатора RUTA?

1 ответ

Решение

Пробелы в списке слов могут привести к пропущенным совпадениям. Если пробелы не важны, установите для параметра конфигурации dictRemoveWS значение true.

ОТКАЗ ОТ ОТВЕТСТВЕННОСТИ: Я разработчик UIMA Ruta

Другие вопросы по тегам