Как получить доступ к имени файла или URL-адресу документа в пользовательском аннотаторе uima с помощью IBM Content Analytics?

Я пишу пользовательский Java-аннотатор для нашего конвейера UIMA в Watson Explorer Content Analytics.

Есть два места (я знаю), где я могу попытаться получить URL или имя файла документа, который в настоящее время обрабатывается.

инициализировать

public class CustomAnnotator extends JCasAnnotator_ImplBase {

@Override
public void initialize(UimaContext aContext)
        throws ResourceInitializationException {
    super.initialize(aContext);
.... HERE MAYBE ? ....

Или же

Процесс

@Override
public void process(JCas jcas) throws AnalysisEngineProcessException {
    try {
.... HERE ....

Я пробовал несколько вариантов:

  • через контекст в методе initialize (запустив конвейер на сервере, я мог бы получить PearID, например),
  • через диван в методе процесса (например, jcas.getSofa().getSofaURI())

Я также нашел SourceDocumentInformation, но это пример, и хотя метод getUri () кажется многообещающим, я полагаюсь на то, что IBM реализует метод setUri(String)...

Но пока я не добился успеха, надеюсь, я что-то упустил...

1 ответ

Решение

Я задал тот же вопрос на IBM dwanwsers. Короче говоря, вы можете получить доступ к нескольким представлениям, когда конвейер работает на сервере Watson Explorer Content Analytics. Для метаданных нам нужно проверить _InitialView, а не rlw-view, который содержит все аннотации, созданные с помощью пользовательского конвейера, созданного вами в Content Analytics Studio. Более подробную информацию можно найти здесь, также посмотрите ответы! https://www.ibm.com/developerworks/community/blogs/ibmandgoogle/entry/Exporting_annotations_from_Watson_Explorer_Content_Analytics?lang=en

Другие вопросы по тегам