Преобразование PDF в работоспособный текст с использованием C#
Есть ли библиотека, которая имеет класс для извлечения текста из файла PDF в C#.net? Я попробовал несколько, но документация ужасна, так что я не смог получить его с нуля. Также, если он предоставляет класс для извлечения изображений, это будет плюсом. Какие-либо предложения? Спасибо заранее.
Также мне нужно иметь возможность реализовать это в существующем приложении.
4 ответа
Вы пробовали PDFKit.NET? У него есть разумные документы и несколько хороших примеров. Он разработан для серверной среды, поэтому стоит немного дороже.
РЕДАКТИРОВАТЬ Вот библиотека с открытым исходным кодом на SourceForge под названием iTextSharp. Это бесплатно для проектов с открытым исходным кодом. Я не использовал это, но это выглядит многообещающим. Вот учебник для этого, который имеет много примеров кода.
Есть несколько способов, по которым вы можете перейти сюда - во многом это будет зависеть от того, хотите ли вы сохранить форматирование (то есть абзацы и другие элементы макета) исходного PDF.
Если вы рассматриваете коммерческие решения, мы предлагаем два продукта, которые могут удовлетворить ваши требования. Одним из них является EasyPDF SDK, который имеет одиночные вызовы ExtractText() и ExtractText2(), которые извлекают текст из ваших PDF-файлов в виде простого текста.
Обратите внимание, что вывод этих вызовов довольно прост, и вы потеряете много оригинальных элементов макета. Они хороши для простого извлечения текста, но могут быть не очень хороши, если ваш PDF содержит табличные данные.
Если вы имеете дело с таблицами, лучше выбрать вместо этого расширенный текст. У нас есть инструмент под названием EasyConverter SDK, предназначенный для деловых документов, который делает это с помощью одного вызова функции.
С EasyConverter SDK макет вашего оригинального PDF будет сохранен.
Оба поддерживают C#, поэтому не стесняйтесь проверять eval версии на www.pdfonline.com, если вам интересно. Я работаю на поставщика, поэтому воспринимаю это предложение как своего рода мать, любящую своего собственного ребенка:-) Я давно просматриваю stackru.com на предмет фрагментов кода, но только недавно начал публиковать, так что если у вас есть любые вопросы с любым API просто дайте мне знать, и я могу помочь. Ура!
Библиотека Docotic.Pdf может извлекать текст и изображения из файлов PDF.
Вы можете извлечь текст из всего документа только с нескольких страниц. Библиотека может извлекать простой текст, а также фрагменты текста с координатами.
Вы можете извлекать изображения из PDF-файлов (как файлы JPEG и TIFF).
Вот пара примеров для вашей задачи:
- Извлечение текста из PDF-файлов
- Извлечение изображений из PDF
Отказ от ответственности: я работаю на Bit Miracle, поставщика библиотеки.
Мы использовали заснеженное программное обеспечение на работе для преобразования изображений. по-видимому, он также поддерживает извлечение текста. однако, это не бесплатно.