Как сделать фото и извлечение текста из онлайн pdf

Question

Как сделать фото и извлечение текста из онлайн pdf

Я знаю что уже есть PDFbox а также iText но у них нет возможности извлечения визуального контента, а также нет необходимости работать в автономном режиме с PDF. Кроме того, я хочу способ извлечения текста и визуального контента в Интернете. не хочу загружать PDF-файл, а затем делать вещи. какой API или библиотека существует для языка Java?

РЕДАКТИРОВАТЬ для тех, кто считает, что это не ясно, я объясняю еще несколько:

Просто представьте, когда используете HTML parser Вы можете разобрать страницу онлайн, сделать DOM или же SAX дерево и просматривая их элементы, а затем извлекая фотографии и текст на основе содержимого узлов в этих деревьях. по крайней мере, для фотографий вы можете получить соответствующие HTML-теги, а для текста - то же самое, плюс вы можете получить фактический текст. Теперь я хочу знать, есть ли что-нибудь подобное для работы с PDF-файлами? просматривая текст и изображения без загрузки

-1

java pdf text-extraction image-extraction

Источник

user1042952 25 янв '15 в 09:35

2 ответа

Другие вопросы по тегам java pdf text-extraction image-extraction

user1434413 28 янв '15 в 09:29 2015-01-28 09:29 · Answer 1 · 2015-01-28 09:29

Gnostice PDFOne (для Java) имеет метод getPageElements(), который может анализировать страницу PDF для элементов текста и изображения. Текст в PDF не в DOM, как документ HTML или XML. Текст только появляется в различных координатах xy и волшебно выглядит хорошо отформатированным. Однако в PDFOne есть несколько методов извлечения текста из PDF, которые восстанавливают эти текстовые элементы в удобные для пользователя предложения. РАСКРЫТИЕ ИНФОРМАЦИИ: Я работаю в компании, которая делает эту библиотеку.

user1921503 25 янв '15 в 10:33 2015-01-25 10:33 · Answer 2 · 2015-01-25 10:33

PDFImageStream может сделать это. Существует бесплатная версия с одним ограничением: ее можно использовать только в однопоточных приложениях.

-1

Источник

user1921503 25 янв '15 в 10:33