PDFMiner не может извлечь шрифт

Я конвертирую некоторые отчеты в формате PDF в обычный текст, используя PDFMiner, и куча моих входных PDF-файлов просто выходит с несколькими распознанными строками, а затем со списком (cid:%d), похожим на этот...

Отчет о проверке

(cid:4)(cid:5)(cid:6)(cid:7)(cid:8)(cid:9) (cid:10)(cid:9)(cid:11)(cid:9)(cid:12)(cid:9)(cid:5)(cid:13)(cid:9) (cid:14)(cid:8)(cid:15)(cid:16)(cid:9)(cid:12) (cid:17)(cid:18)(cid:13)(cid:19)(cid:20) (cid:21)(cid:8)(cid:22)(cid:23)(cid:18)(cid:12)(cid:6)(cid:22)(cid:24) (cid:25)(cid:5)(cid:26)(cid:27)(cid:9)(cid:13)(cid:22)(cid:6)(cid:18)(cid:5) (cid:5)(cid:8)(cid:15)(cid:16)(cid:9)(чид: 12)

Проверка это, я думаю, проблема в том, что основная часть документа находится в шрифте, который сопротивляется извлечению. Отладка проблемы была довольно странной, потому что шрифт, казалось, менялся за ночь (не спрашивайте, как, просто так и произошло).

Я не уверен, что может быть значительным, но сегодня шрифт имеет свойства:

name = 'font00000018f29a3e' - cidcoding = 'Adobe-Identity'- unicode_map = 'UnicodeMap: /Adobe-Identity-UCS' - unicode_map.cid2unichr = {}

Я использую 2.7 на Mac и попробовал несколько вещей

  1. PyPDF2
  2. Копирование и вставка в textedit (символы пустые)
  3. Удаление и переустановка с помощью cmaps rebuilt
  4. Выключить и снова включить машину

Для справки все отчеты имеют сходную форму, одну из которых можно найти здесь.

http://www.ofsted.gov.uk/provider/files/959173/urn/118074.pdf

Проблема касается всех отчетов, опубликованных до сентября 2010 года.

0 ответов

Другие вопросы по тегам