Как я могу проанализировать и изучить PRStream в содержании страницы PDF?

Question

Как я могу проанализировать и изучить PRStream в содержании страницы PDF?

В настоящее время я изучаю PDF с помощью iTextSharp. Я могу легко просматривать страницы и извлекать определенные элементы, такие как аннотации с URI из PdfDictionaries, PdfArrays и т. Д.

Моя текущая цель - исследовать и извлекать текст и информацию о шрифте / размере / цвете / положении шрифта со страниц, однако страница /PdfDictionary выставляет CONTENTS как PRStream, и я не могу получить доступ к объектам, описанным внутри. Я понимаю, что он может быть проанализирован и обработан как текст, но есть ли способ преобразовать его для анализа в PdfArray или любую другую структуру данных? Экспортировать только текстовые значения со страниц (это легко сделать из Adobe Acrobat и других инструментов) для этой задачи нецелесообразно, так как для организации текста необходимо будет использовать другие ориентиры (местоположение или стиль).

CType(page.GetAsStream(PdfName.CONTENTS),PRStream)

Если iTextSharp не подходит или не может этого достичь, но доступна другая библиотека.net, которая может порекомендовать ее.

0

.net pdf itext pdflib pdf-parsing

Источник

user1017492 21 ноя '17 в 18:55

0 ответов

Другие вопросы по тегам .net pdf itext pdflib pdf-parsing