Преобразование PDF в работоспособный текст с использованием C#

Есть ли библиотека, которая имеет класс для извлечения текста из файла PDF в C#.net? Я попробовал несколько, но документация ужасна, так что я не смог получить его с нуля. Также, если он предоставляет класс для извлечения изображений, это будет плюсом. Какие-либо предложения? Спасибо заранее.

Также мне нужно иметь возможность реализовать это в существующем приложении.

4 ответа

Решение

Вы пробовали PDFKit.NET? У него есть разумные документы и несколько хороших примеров. Он разработан для серверной среды, поэтому стоит немного дороже.

РЕДАКТИРОВАТЬ Вот библиотека с открытым исходным кодом на SourceForge под названием iTextSharp. Это бесплатно для проектов с открытым исходным кодом. Я не использовал это, но это выглядит многообещающим. Вот учебник для этого, который имеет много примеров кода.

Есть несколько способов, по которым вы можете перейти сюда - во многом это будет зависеть от того, хотите ли вы сохранить форматирование (то есть абзацы и другие элементы макета) исходного PDF.

Если вы рассматриваете коммерческие решения, мы предлагаем два продукта, которые могут удовлетворить ваши требования. Одним из них является EasyPDF SDK, который имеет одиночные вызовы ExtractText() и ExtractText2(), которые извлекают текст из ваших PDF-файлов в виде простого текста.

Обратите внимание, что вывод этих вызовов довольно прост, и вы потеряете много оригинальных элементов макета. Они хороши для простого извлечения текста, но могут быть не очень хороши, если ваш PDF содержит табличные данные.

Если вы имеете дело с таблицами, лучше выбрать вместо этого расширенный текст. У нас есть инструмент под названием EasyConverter SDK, предназначенный для деловых документов, который делает это с помощью одного вызова функции.

С EasyConverter SDK макет вашего оригинального PDF будет сохранен.

Оба поддерживают C#, поэтому не стесняйтесь проверять eval версии на www.pdfonline.com, если вам интересно. Я работаю на поставщика, поэтому воспринимаю это предложение как своего рода мать, любящую своего собственного ребенка:-) Я давно просматриваю stackru.com на предмет фрагментов кода, но только недавно начал публиковать, так что если у вас есть любые вопросы с любым API просто дайте мне знать, и я могу помочь. Ура!

Библиотека Docotic.Pdf может извлекать текст и изображения из файлов PDF.

Вы можете извлечь текст из всего документа только с нескольких страниц. Библиотека может извлекать простой текст, а также фрагменты текста с координатами.

Вы можете извлекать изображения из PDF-файлов (как файлы JPEG и TIFF).

Вот пара примеров для вашей задачи:

Отказ от ответственности: я работаю на Bit Miracle, поставщика библиотеки.

Мы использовали заснеженное программное обеспечение на работе для преобразования изображений. по-видимому, он также поддерживает извлечение текста. однако, это не бесплатно.

Другие вопросы по тегам