Как сделать фото и извлечение текста из онлайн pdf

Я знаю что уже есть PDFbox а также iText но у них нет возможности извлечения визуального контента, а также нет необходимости работать в автономном режиме с PDF. Кроме того, я хочу способ извлечения текста и визуального контента в Интернете. не хочу загружать PDF-файл, а затем делать вещи. какой API или библиотека существует для языка Java?

РЕДАКТИРОВАТЬ для тех, кто считает, что это не ясно, я объясняю еще несколько:

Просто представьте, когда используете HTML parser Вы можете разобрать страницу онлайн, сделать DOM или же SAX дерево и просматривая их элементы, а затем извлекая фотографии и текст на основе содержимого узлов в этих деревьях. по крайней мере, для фотографий вы можете получить соответствующие HTML-теги, а для текста - то же самое, плюс вы можете получить фактический текст. Теперь я хочу знать, есть ли что-нибудь подобное для работы с PDF-файлами? просматривая текст и изображения без загрузки

2 ответа

Gnostice PDFOne (для Java) имеет метод getPageElements(), который может анализировать страницу PDF для элементов текста и изображения. Текст в PDF не в DOM, как документ HTML или XML. Текст только появляется в различных координатах xy и волшебно выглядит хорошо отформатированным. Однако в PDFOne есть несколько методов извлечения текста из PDF, которые восстанавливают эти текстовые элементы в удобные для пользователя предложения. РАСКРЫТИЕ ИНФОРМАЦИИ: Я работаю в компании, которая делает эту библиотеку.

PDFImageStream может сделать это. Существует бесплатная версия с одним ограничением: ее можно использовать только в однопоточных приложениях.

Другие вопросы по тегам