Извлечение гиперссылок Apache POI HWPF
HYPERLINK "целевой" ярлык
Как извлечь гиперссылки из документа HWPF? Я могу получить абзацы из файла doc и извлечь при необходимости правильный стиль, то есть жирный шрифт, курсив и т. Д. Но как мне определить и извлечь гиперссылки из абзаца?
1 ответ
Решение
Формат.doc не хранит гиперссылки самым простым способом, как вы заметили...
Гиперссылка будет представлять собой CharacterRun со специальными маркерами. Как только вы обнаружили это, просто разделите текст на основе кавычек.
Есть хороший пример сделать это в Apache Tika, посмотрите на метод handleSpecialCharacterRuns в WordExtractor, чтобы увидеть, как это делается.