Библиотека сланцев Python: объединение слов в формате PDF
Просто пытаюсь извлечь текст из PDF в Python, используя Slate Library и PyPDF2. К сожалению, некоторые PDF-файлы выводятся с несколькими словами, объединенными / объединенными вместе. Кажется, что это происходит периодически, например, для некоторых PDF-файлов слова извлекаются с пробелами между ними правильно, в то время как для других - нет.
Один пример PDF, где слова не извлечены правильно, включен и доступен для скачивания (ТАК не разрешил мне его загрузить) здесь. Выход из
slate.PDF(open(name, 'rb') ).text()
есть (или хотя бы сегмент есть):
, Notonadhocprocedures,andcanbeusedwithdatacollectedatmul-tiplespatialresolutions(Kulldorff1999).Ifdataontheabundanceofataxonovertimeareavailable,thesedatacanbeincorporatedintoanSTPSanalysistoincreasethesensitivityandreliabilityofthemodeltodetectsightingclusters,
где, конечно, должен быть первый токен, разделенный запятыми not on adhoc procedures
Кто-нибудь знает, почему это происходит, или лучше представить библиотеку для извлечения текста в формате PDF?
Спасибо за помощь!