Функция Linux PdfToText возвращает пустой текстовый файл

Я использовал функцию Linux для преобразования списка файлов PDF в текст.

Команда:

pdftotext -htmlmeta

Это хорошо работает для большинства моих файлов.

но для небольшого количества из них это возвращает мне пустой текстовый файл.

Мои неуспешные PDF-файлы не были зашифрованы, не защищены паролем и не были прочитаны.

1 ответ

Решение

Преобразование PDF-файлов в текст не является четко определенным процессом. Это может работать потрясающе или не работать вообще, в зависимости от ввода PDF.

Почему это? Потому что задача PDF состоит в том, чтобы представлять оптику документа, а не текстовое содержимое. PDF-файлы могут быть чем угодно: от простого текста с позиционной информацией до простой графики глифов букв текста. В последнем случае для получения текстовой информации потребуется ввести OCR на входе. Это не делается такими инструментами, как pdftotext,

Иногда текст в PDF разбросан по всему файлу, например, потому что сначала в PDF упоминаются все буквы стандартного шрифта, а затем в файле упоминаются все буквы курсивного шрифта (конечно, с позиционной информацией, поэтому читатель оптического представления не заметит этого, даже если текст и курсив смешаны по всему тексту на странице). Преобразовать этот беспорядок в беглый текст - главная задача, на которую способны не многие конвертеры.

Поэтому я думаю, что все, что вы можете сделать, это попробовать еще несколько конвертеров для PDF в текст (некоторые лучше, чем другие, а некоторые лучше только для какого-то конкретного ввода) или увидеть, что вы можете получить текст из другого источника, чем файлы PDF.

Другие вопросы по тегам