Извлечение полей из документа ODT с использованием библиотеки Java
Мне нужно использовать библиотеку Java - или код - для извлечения тегов полей из содержимого документа ODT. Я знаю, что odt - это какой-то заархивированный файл, и его содержимое содержится в файле content.xml. Конечно, я мог бы просто извлечь файлы, открыть content.xml и разобрать его, но я считаю, что существует некоторый код более высокого уровня. Как пример, контент выглядит так:
<text:p text:style-name="Standard">Hi ${name}!</text:p>
<text:p text:style-name="Standard">
<text:text-input text:description="JOOScript">$nome</text:text-input></text:p>
Я хотел бы извлечь поля как ${name} и $nome.
Я знаю, что Apache Tika может быть использована для этого, но я не видел пример, который на самом деле показывает извлечение поля. Я считаю, что это потому, что поля, которые я использую, представляют собой неструктурированный текст вместо тегов поля ввода.
Заранее спасибо, Даниэль
1 ответ
Ну, на случай, если кому-то будет интересно, мы в конечном итоге использовали Apache Tika для получения контента из odt и проанализировали его с помощью следующего регулярного выражения:
\$\{[\w\-\.]*\}