Сокращения с использованием Uima Ruta

Я пытался пометить сокращения в некоторых файлах, используя Uima Ruta. Я использовал простой скрипт, как показано ниже, но не работает для определенных сокращений.

Мой алгоритм работает примерно так; 1. Разбить аббревиатуру на буквы / цифры (ATM -> A,T,M . IC3 -> I,C,3) 2. Преобразовать цифры в буквы (I,C,3 -> I,C,C,C) 3. Прочитать текущее предложение и сопоставить буквы со словами (стоп-слова могут / не могут быть включены)

Но я не знаю, как добиться того же в Руте. Где я могу найти такие циклические и управляющие структуры?

Пример ввода:

  The National Academies of Science, Engineering, and Medicine (NAS)
  registered nurses (RNs)
  Licensed practical nurses (LPNs)
  Asian/Pacific Islander Americans (APIAs)

  Crime&Investigation Network (CI) 
  Internet Crime Complaint Center (“IC3”)
  Practice Management <PM>

Автор сценария:

CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW LParen CAP RParen{-> MARK(DZC_ABBREVIATIONS, 1, 12)};
CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW{-PARTOF(DZC_ABBREVIATIONS)}  LParen CAP RParen{-PARTOF(DZC_ABBREVIATIONS) -> MARK(DZC_ABBREVIATIONS, 1, 12)};
CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (LParen CAP SW?  RParen){-PARTOF(DZC_ABBREVIATIONS) ->  MARK(DZC_ABBREVIATIONS, 1, 11)};

Немаркированные СОКРАЩЕНИЯ:

Chronic Kidney Disease in Children (CKiD)
Society of Intercultural Education, Training, and Research (SIETAR)
The National Academies of Science, Engineering, and Medicine (NAS)
Internet Crime Complaint Center (“IC3”)

0 ответов

Другие вопросы по тегам