Обработка многостолбцовых макетов с помощью модуля pdfminer pdf2txt.py
Пока я успешно использую модуль pdfminer pdf2txt.py.
Но проблема возникает в PDF-файлах, отформатированных в двух столбцах. Модуль извлекает текст в один столбец, который приводит к множеству разделенных слов в конце строк. пример:
и функциональные свойства
Компоненты отрицательно, как физически, так и химически.
* Обратите внимание, что слова разделены символом "-".
Я хочу настроить команду так, чтобы слова в конце строки отображались как единое целое и, следовательно, не теряли информацию. Возможно, добавив параметр строки или символьное поле, специфичное для символа "-", который нужно заменить на обратную косую черту?
Я также хотел бы знать, есть ли способ зациклить команду и заставить ее анализировать каталог, полный файлов PDF, каждый раз генерируя другой выходной текстовый файл с именем оригинала?
Я не уверен, как это сделать, хотя.