Обработка многостолбцовых макетов с помощью модуля pdfminer pdf2txt.py

Question

Обработка многостолбцовых макетов с помощью модуля pdfminer pdf2txt.py

Пока я успешно использую модуль pdfminer pdf2txt.py.

Но проблема возникает в PDF-файлах, отформатированных в двух столбцах. Модуль извлекает текст в один столбец, который приводит к множеству разделенных слов в конце строк. пример:

и функциональные свойства
Компоненты отрицательно, как физически, так и химически.

* Обратите внимание, что слова разделены символом "-".

Я хочу настроить команду так, чтобы слова в конце строки отображались как единое целое и, следовательно, не теряли информацию. Возможно, добавив параметр строки или символьное поле, специфичное для символа "-", который нужно заменить на обратную косую черту?

Я также хотел бы знать, есть ли способ зациклить команду и заставить ее анализировать каталог, полный файлов PDF, каждый раз генерируя другой выходной текстовый файл с именем оригинала?

Я не уверен, как это сделать, хотя.

6

python pdf text nlp

Источник

27 май '13 в 14:52

0 ответов

Другие вопросы по тегам python pdf text nlp