Поиск файлов Docx в Java

Я пишу приложение для поиска содержимого документов. Я уже написал код для поиска документов, которые можно редактировать с помощью блокнота.

Я также хочу сделать то же самое для файлов DOCX. После некоторого исследования я придумал эти две вещи

  1. http://www.infoq.com/articles/cracking-office-2007-with-java этот метод требует от меня извлечения файла docx и последующего поиска в файлах xml, однако это потребует дополнительных накладных расходов на часть извлечения и, честно говоря, я не знать, как обрабатывать XML-файл (отбрасывать содержимое атрибутов и т. д.)

  2. http://www.javadocx.com/download этот метод позволяет мне импортировать jar-библиотеку в мой проект и, якобы, я могу создавать с ее помощью файлы docx, но я не понимаю, как открыть файлы docx, используя ее

Кто-нибудь может порекомендовать мне альтернативный метод для выполнения того же действия или помочь с двумя вышеупомянутыми методами?

1 ответ

Попробуйте http://tika.apache.org/ или docx4j или POI.

Другие вопросы по тегам