Извлечение полей из документа ODT с использованием библиотеки Java

Мне нужно использовать библиотеку Java - или код - для извлечения тегов полей из содержимого документа ODT. Я знаю, что odt - это какой-то заархивированный файл, и его содержимое содержится в файле content.xml. Конечно, я мог бы просто извлечь файлы, открыть content.xml и разобрать его, но я считаю, что существует некоторый код более высокого уровня. Как пример, контент выглядит так:

<text:p text:style-name="Standard">Hi ${name}!</text:p>    
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>

Я хотел бы извлечь поля как ${name} и $nome.

Я знаю, что Apache Tika может быть использована для этого, но я не видел пример, который на самом деле показывает извлечение поля. Я считаю, что это потому, что поля, которые я использую, представляют собой неструктурированный текст вместо тегов поля ввода.

Заранее спасибо, Даниэль

1 ответ

Решение

Ну, на случай, если кому-то будет интересно, мы в конечном итоге использовали Apache Tika для получения контента из odt и проанализировали его с помощью следующего регулярного выражения:

\$\{[\w\-\.]*\}
Другие вопросы по тегам