UIMA Ruta: невозможно игнорировать периоды, используя MarkTable

Если у меня есть словарь, содержащий различные аббревиатуры и обозначения, в идеале я бы хотел избежать записи для каждого "США", "США" и "США". У меня нет проблем с игнорированием case, но аргумент ignore chars, похоже, не работает по всем направлениям. После соответствующего импорта и объявления операторов я получаю что-то вроде следующего:

Документ {->MARKTABLE(Acroynm,1,AcronymDict, правда,0,"-.",10,"expandedForm"=2)};

Он успешно игнорирует один набор из 1-10 дефисов. Он не игнорирует 10 дефисов, распределенных по всему слову. (Он будет игнорировать a-bc и a - bc, но не abc.) Это на самом деле хорошо для дефисов, но я не могу, с помощью приведенного выше утверждения, заставить его вообще игнорировать точки. (Он не игнорирует ни a.bc, ни abc) Кроме того, если я могу заставить его игнорировать периоды, есть ли способ игнорировать периоды в ABC, а не только в A.BC?

Любое дальнейшее описание ограничений этого аргумента будет полезно. Благодарю.

Соответствующая документация Рута: https://uima.apache.org/d/ruta-current/tools.ruta.book.html

0 ответов

Другие вопросы по тегам