Функция Linux PdfToText возвращает пустой текстовый файл
Я использовал функцию Linux для преобразования списка файлов PDF в текст.
Команда:
pdftotext -htmlmeta
Это хорошо работает для большинства моих файлов.
но для небольшого количества из них это возвращает мне пустой текстовый файл.
Мои неуспешные PDF-файлы не были зашифрованы, не защищены паролем и не были прочитаны.
1 ответ
Преобразование PDF-файлов в текст не является четко определенным процессом. Это может работать потрясающе или не работать вообще, в зависимости от ввода PDF.
Почему это? Потому что задача PDF состоит в том, чтобы представлять оптику документа, а не текстовое содержимое. PDF-файлы могут быть чем угодно: от простого текста с позиционной информацией до простой графики глифов букв текста. В последнем случае для получения текстовой информации потребуется ввести OCR на входе. Это не делается такими инструментами, как pdftotext
,
Иногда текст в PDF разбросан по всему файлу, например, потому что сначала в PDF упоминаются все буквы стандартного шрифта, а затем в файле упоминаются все буквы курсивного шрифта (конечно, с позиционной информацией, поэтому читатель оптического представления не заметит этого, даже если текст и курсив смешаны по всему тексту на странице). Преобразовать этот беспорядок в беглый текст - главная задача, на которую способны не многие конвертеры.
Поэтому я думаю, что все, что вы можете сделать, это попробовать еще несколько конвертеров для PDF в текст (некоторые лучше, чем другие, а некоторые лучше только для какого-то конкретного ввода) или увидеть, что вы можете получить текст из другого источника, чем файлы PDF.