Как сделать фото и извлечение текста из онлайн pdf
Я знаю что уже есть PDFbox
а также iText
но у них нет возможности извлечения визуального контента, а также нет необходимости работать в автономном режиме с PDF. Кроме того, я хочу способ извлечения текста и визуального контента в Интернете. не хочу загружать PDF-файл, а затем делать вещи. какой API или библиотека существует для языка Java?
РЕДАКТИРОВАТЬ для тех, кто считает, что это не ясно, я объясняю еще несколько:
Просто представьте, когда используете HTML parser
Вы можете разобрать страницу онлайн, сделать DOM
или же SAX
дерево и просматривая их элементы, а затем извлекая фотографии и текст на основе содержимого узлов в этих деревьях. по крайней мере, для фотографий вы можете получить соответствующие HTML-теги, а для текста - то же самое, плюс вы можете получить фактический текст. Теперь я хочу знать, есть ли что-нибудь подобное для работы с PDF-файлами? просматривая текст и изображения без загрузки
2 ответа
Gnostice PDFOne (для Java) имеет метод getPageElements(), который может анализировать страницу PDF для элементов текста и изображения. Текст в PDF не в DOM, как документ HTML или XML. Текст только появляется в различных координатах xy и волшебно выглядит хорошо отформатированным. Однако в PDFOne есть несколько методов извлечения текста из PDF, которые восстанавливают эти текстовые элементы в удобные для пользователя предложения. РАСКРЫТИЕ ИНФОРМАЦИИ: Я работаю в компании, которая делает эту библиотеку.
PDFImageStream может сделать это. Существует бесплатная версия с одним ограничением: ее можно использовать только в однопоточных приложениях.