Сокращения с использованием Uima Ruta
Я пытался пометить сокращения в некоторых файлах, используя Uima Ruta. Я использовал простой скрипт, как показано ниже, но не работает для определенных сокращений.
Мой алгоритм работает примерно так; 1. Разбить аббревиатуру на буквы / цифры (ATM -> A,T,M . IC3 -> I,C,3) 2. Преобразовать цифры в буквы (I,C,3 -> I,C,C,C) 3. Прочитать текущее предложение и сопоставить буквы со словами (стоп-слова могут / не могут быть включены)
Но я не знаю, как добиться того же в Руте. Где я могу найти такие циклические и управляющие структуры?
Пример ввода:
The National Academies of Science, Engineering, and Medicine (NAS)
registered nurses (RNs)
Licensed practical nurses (LPNs)
Asian/Pacific Islander Americans (APIAs)
Crime&Investigation Network (CI)
Internet Crime Complaint Center (“IC3”)
Practice Management <PM>
Автор сценария:
CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW LParen CAP RParen{-> MARK(DZC_ABBREVIATIONS, 1, 12)};
CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW{-PARTOF(DZC_ABBREVIATIONS)} LParen CAP RParen{-PARTOF(DZC_ABBREVIATIONS) -> MARK(DZC_ABBREVIATIONS, 1, 12)};
CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (EnglishStopWord?|SPECIAL?)? CW (LParen CAP SW? RParen){-PARTOF(DZC_ABBREVIATIONS) -> MARK(DZC_ABBREVIATIONS, 1, 11)};
Немаркированные СОКРАЩЕНИЯ:
Chronic Kidney Disease in Children (CKiD)
Society of Intercultural Education, Training, and Research (SIETAR)
The National Academies of Science, Engineering, and Medicine (NAS)
Internet Crime Complaint Center (“IC3”)