Бесплатная библиотека PDF манипулирования или код?
Я думаю о разработке инструмента для коммерческого использования (я намереваюсь его продать), который будет включать манипулирование файлами документов.
Манипуляции будут включать в себя: 1. объединение нескольких файлов PDF в один. 2. преобразование файла doc/docx в файл PDF. 3. разбить один файл PDF на 2 отдельных файла PDF. 4. нумерация страниц файла PDF (с последовательно идущим номером).
В связи с этим, я ищу бесплатную библиотеку или код, чтобы помочь мне с PDF-манипуляциями. Я предпочитаю, чтобы библиотека была на C#, потому что мое программное обеспечение будет на C#, поскольку оно имеет некоторый графический интерфейс, но я справлюсь и с библиотекой JAVA...
Я нашел библиотеку "pdftk", которая может мне сильно помочь, но, к сожалению, ее лицензия не позволяет коммерческое использование....
У кого-нибудь есть идея бесплатной библиотеки или кода, который может помочь мне в этом?
Большое спасибо!!
2 ответа
Взгляните на pdftotext по адресу http://www.foolabs.com/xpdf/download.html.
Он обеспечивает возможность извлечения содержимого PDF-файла в текстовый файл. Он отличается от других библиотек тем, что поддерживает форматирование из PDF-файла в извлеченном текстовом файле. Это действительно полезно, когда ваш PDF-файл содержит структурные данные, такие как таблицы, и PDF-файлы без тегов. PDFBox и другие библиотеки не могут поддерживать структуру содержимого вашего PDF при его анализе.
После извлечения текстового файла из вашего PDF вы можете использовать ваш любимый язык программирования для разбора текстового файла.
Ознакомьтесь с лицензионной политикой здесь: http://www.glyphandcog.com/Xpdf.html. В нем четко говорится, что если вы напрямую используете исполняемые файлы без изменения исходного кода, вы можете свободно распространять свое приложение, использующее исполняемые файлы. Если производительность не имеет значения, вам не нужно трогать их исходный код.
Если производительность является проблемой, вы можете создать пробную версию вашего приложения, которая подчеркивает функциональность, но, естественно, медленно, поскольку он будет запускать исполняемый файл каждый раз, когда вы хотите обработать PDF. Платная версия может напрямую вызывать API pdftotext и будет быстрее. Вы можете восполнить деньги, потраченные на лицензирование очень легко. Я бы сделал это на вашем месте, но у меня уже есть несколько крупных проектов на моей тарелке:)
Я могу поручиться за pdftotext, поскольку я использовал это сам. Кажется, что все другие библиотеки забывают, что пользователи могут быть заинтересованы в том, чтобы сохранить формат файлов PDF как есть.