Извлечение текста, помеченного для редактирования, в документе PDF с использованием.NET
Я работаю над дополнительным продуктом PDF acrobat, и одним из требований является извлечение текста, помеченного для редактирования в данном документе PDF.
Предполагая, что вы знаете, что такое "редактирование" (прочитайте это, если вы не знаете, http://acrobatusers.com/tutorials/redacting-pdf-files-survey-tools), пожалуйста, предложите, как я могу найти координаты для текст, который был "помечен" для редактирования в любом PDF, а затем извлекать точный текст.
Пожалуйста, попросите более подробную информацию, если вы считаете, что можете привести меня к правильным ответам. Я пытался использовать библиотеки iTextSharp и Aspose.PDF для того же без особого успеха.
1 ответ
Когда вы помечаете текст для редактирования с помощью Acrobat, он создает аннотации для редактирования. Аннотации редактирования имеют ключ /Subtype, установленный в /Redact. Область редактирования определяется ключом /QuadPoints в словаре аннотаций. Я не знаю, поддерживают ли iTextSharp или Aspose аннотации редактирования. С iTextSharp вы можете использовать COS API для извлечения необработанных объектов PDF и проверки нужных вам объектов.