pdftotext странные символы в качестве вывода

Question

pdftotext странные символы в качестве вывода

Я пытаюсь использовать pdftotext для преобразования файлов.pdf в текст для дальнейшей обработки файлов в python, но у меня возникает следующая проблема:

Это работает для некоторых файлов.pdf, хотя мой вывод для некоторых файлов выглядит (что неправильно):

(0)

(0)

(0)
(0)
(0)
(0)

000 0000000 0000000000 0000000 00000 000 00
000000000 0000 0000 0000000 00000000000 00000000
000000 000 0000000 000000.
000 000000 0000000 00000000 0000000 0 00000
00000 00 0000000 000000.

Когда я смотрю на это, мне кажется, что один символ 0 представляет ровно один символ.

Итак, мой вопрос, что может быть не так? И как я могу исправить вывод pdftotext?

0

pdf pdftotext pdf-conversion

Источник

user1499038 13 май '15 в 10:35

0 ответов

Другие вопросы по тегам pdf pdftotext pdf-conversion