Библиотека сланцев Python: объединение слов в формате PDF

Просто пытаюсь извлечь текст из PDF в Python, используя Slate Library и PyPDF2. К сожалению, некоторые PDF-файлы выводятся с несколькими словами, объединенными / объединенными вместе. Кажется, что это происходит периодически, например, для некоторых PDF-файлов слова извлекаются с пробелами между ними правильно, в то время как для других - нет.

Один пример PDF, где слова не извлечены правильно, включен и доступен для скачивания (ТАК не разрешил мне его загрузить) здесь. Выход из

slate.PDF(open(name, 'rb') ).text()

есть (или хотя бы сегмент есть):

, Notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,

где, конечно, должен быть первый токен, разделенный запятыми not on adhoc procedures

Кто-нибудь знает, почему это происходит, или лучше представить библиотеку для извлечения текста в формате PDF?

Спасибо за помощь!

0 ответов

Другие вопросы по тегам