Apache UIMA Ruta - это язык сценариев для обработки естественного языка.
1 ответ

UIMA Ruta Workbench с ядром Maven и DKPro

Я пытаюсь использовать компоненты DKPro Core в рабочей среде RUTA, как в следующем примере с немецким романом: https://github.com/pkluegl/ruta IMPORT PACKAGE de.tudarmstadt.ukp.dkpro.core.api.lexmorph.type.pos FROM desc.type.POS AS pos; IMPORT de.tu…
05 мар '18 в 22:17
1 ответ

UIMA Ruta Только комментирует самый длинный матч

Я использую RUTA и написал много разных правил для извлечения одной и той же сущности. Например, я буду добывать "фабрику туалетной бумаги". На данный момент мои правила приведут к фабрике туалетной бумаги, бумажной фабрике и фабрике. Но меня интере…
14 ноя '16 в 13:22
1 ответ

Сколько языков поддерживает UIMA Ruta?

Я новичок в области анализа текста, технологий UIMA и UIMA Ruta и работаю над новым программным обеспечением (на основе Java) для интеллектуальной обработки документов. В настоящее время я просматриваю все материалы для чтения, связанные с UIMA/Ruta…
24 апр '16 в 03:49
0 ответов

Необходимо аннотировать слово без использования "регулярного выражения"

Необходимо аннотировать / сопоставить слово (глава). Слово Глава встречается дважды в приведенном ниже примере вводимого текста. DECLARE Chapter; W{REGEXP("Chapter",true),-PARTOF(Chapter)-> MARK(Chapter)}; Когда я использовал условие Regexp, оно …
17 окт '17 в 06:12
0 ответов

Автозаполнение для UIMA Ruta в Eclipse

Есть ли способ иметь функцию автозаполнения при кодировании в UIMA Ruta на Eclipse? Например, когда я печатаю FEAЯ мог бы получить предложение, как FEATURE("",""), Версия Eclipse, которую я использую, - это Mars 2, а для UIMA: Инструменты UIMA (со с…
23 окт '17 в 09:27
1 ответ

Слово несоответствия Уима Рута

Имитация HyphenizationWord Как в автономном режиме,New-list,VBSE-in..etc с помощью (SW|CW|CAP) HYPHEN (SW|CW|CAP) HYPHEN (SW|CW|CAP) {-PARTOF(HyphenizationWord) ->MARK(ThreeHyphenizationWord,1,5)}; (SW|CW|CAP) HYPHEN (SW|CW|CAP) {-PARTOF(Hypheniz…
24 авг '16 в 13:06
1 ответ

Доступ к объединенным аннотациям UIMA Ruta в Java

У меня проблема с доступом к объединенным аннотациям рута. Мои аннотации основаны на предыдущем модуле, который генерирует NormalizedNamedEnitites (NNE) и помечает их в соответствии с набором правил, который работает просто отлично: NormalizedNamedE…
04 июл '18 в 09:32
1 ответ

UIMA Ruta Создание аннотации с элементами, разделенными некоторым текстом

У меня есть текст с аннотациями, созданными следующим образом: wewf.werwfwef. wewfwefwwew. wefewefwff AnnotationA asdfawece aefae eafewfaefa aefafe ceaewfae adfcaecae acaeaet aegaegageg caeacdaefa AnnotationB sadaeceaee aef aewfaegg rresf ceeaefaeae…
07 июл '14 в 08:05
1 ответ

Пометка Маркфаст

Я использую Markfast как показано ниже Авторсценария: WORDLIST PARTICLESLIST = 'NameswithParticles.txt'; DECLARE PARTICLES; Document{ -> MARKFAST(PARTICLES, PARTICLESLIST,true)}; NameswithParticles.txt: der Der de De d' D' De la de La de la von V…
01 ноя '16 в 07:49
1 ответ

Fuziness In UIMA рута

Есть ли вариант нечеткости в случае совпадения слов или игнорирования некоторых особых случаев. Например: STRINGLIST AMIMALLIST = {"LION","TIGER","MONKEY"}; DECLARE ANIMAL; Document {-> MARKFAST(ANIMAL, AMIMALLIST, true)}; Мне нужно сопоставить с…
16 авг '17 в 08:19
1 ответ

Apache UIMA Ruta Workbench с пользовательским рута-ядром

В нашем корпусе мы часто находим и должны анализировать буквенно-цифровые данные как один токен (например, хэши файлов, адреса электронной почты и т. Д.). Мы создали нашу собственную версию ruta-core, переработав определение JFlex. Есть ли способ, к…
20 дек '17 в 17:56
2 ответа

UIMA RUTA: регулярное выражение в WORDLIST

Есть ли способ иметь регулярные выражения в WORDLIST? Мне нужно реализовать то же, что указано в https://issues.apache.org/jira/browse/UIMA-3382. Или есть какой-нибудь альтернативный способ решить это? РЕДАКТИРОВАТЬ: WORDLIST определяется как список…
27 июн '14 в 04:23
1 ответ

UIMA Ruta: необязательный квантификатор

Я хочу соответствовать некоторым условиям, только если термин, стоящий за этим термином, важен для меня. Итак, я создал минимальный пример: Это мои данные испытаний: small Large Large small И я хочу отметить термины " маленький" и " большой", но не …
09 ноя '16 в 20:20
0 ответов

UIMA Ruta: невозможно игнорировать периоды, используя MarkTable

Если у меня есть словарь, содержащий различные аббревиатуры и обозначения, в идеале я бы хотел избежать записи для каждого "США", "США" и "США". У меня нет проблем с игнорированием case, но аргумент ignore chars, похоже, не работает по всем направле…
29 окт '14 в 12:31
1 ответ

Проблема со сборкой WordTables в UIMA RUTA / RETAINTYPE не работает

Я пытаюсь комментировать документ с помощью RUTA, но не все термины в моем словаре увольняют. Похоже, что таблицы слов могут не читаться правильно или что RETAINTYPE(SPACE)/RETAINTYPE(WS) не работает. Пример: у меня есть термины "открыть шкаф", "отк…
31 авг '18 в 16:58
1 ответ

UIMA RUTA: Курсив

Кто-нибудь знает, как я могу найти все слова в тексте, которые выделены курсивом? И чтобы расширить это, ищите определенные слова, которые (или не) выделены курсивом? Например, учитывая "я уверен, что я не ошибаюсь", я хотел бы извлечь certainили из…
16 июн '17 в 10:24
1 ответ

UIMA Рута словарь случае игнорировать

Мой вариант использования таков, что у меня есть список совпадений слов в WORDLIST "MonthNames.txt". Теперь я хочу отметить все вхождения этих слов в данном документе независимо от регистра текста. PACKAGE uima.ruta.example; WORDLIST MonthNameList =…
13 июн '14 в 07:08
1 ответ

Как сопоставить конкретные токены в UIMA Ruta?

DECLARE A,B; DECLARE Annotation C(Annotation firstA, Annotation secondA,...); "token1|token2|...|tokenn" -> A; "token3|token4" -> B; A A B {->MARK(C,1,3)}; Я сделал с GATHER (A COMMA A B) {-> GATHER(C,1,4,"firstA"=1,"secondA" = 3,"B"=4)}…
25 сен '14 в 14:57
1 ответ

XCASParsingException при попытке десериализации xmi в объект CAS

Я запустил скрипты Ruta из Java и преобразовал получившийся объект CAS в файл xmi, как показано ниже; FileOutputStream fileOutputStream = new FileOutputStream(outputXmiFile); XmiCasSerializer.serialize(cas, fileOutputStream); Когда я пытаюсь преобра…
05 дек '17 в 12:35
0 ответов

Сокращения с использованием Uima Ruta

Я пытался пометить сокращения в некоторых файлах, используя Uima Ruta. Я использовал простой скрипт, как показано ниже, но не работает для определенных сокращений. Мой алгоритм работает примерно так; 1. Разбить аббревиатуру на буквы / цифры (ATM -> …
23 май '16 в 12:54