Ghostscript textwriter сохранить пустые строки
Я пытаюсь конвертировать PDF-файлы в текстовые файлы. Я использую эту команду для выполнения преобразования:
gs -dBATCH -dNOPAUSE -sDEVICE=txtwrite -sOutputFile=output.txt input.pdf
Версия Ghostscript 9.07.
Я получаю весь текст, показанный в PDF. Я хотел бы сохранить пустые строки в текстовом файле, если это возможно.
Спасибо
1 ответ
Вы должны обновить, текущая версия Ghostscript 9.18 и 9.19 будет выпущен в ближайшее время. Каждая из промежуточных версий содержит исправления для устройства txtwrite.
Несмотря на то, что файлы PDF не содержат пустых строк, устройство txtwrite имеет режим, при котором оно пытается создать разумное представление исходного макета, используя пробелы и пустые строки в текстовом файле.
Это действие по умолчанию в текущей версии txtwrite, поэтому вы должны его уже получить, если только вы не выбрали другой TextFormat.
Этот режим очень эвристический, его легко одурачить, он плохо справляется с верхними индексами, индексами, значительными изменениями размера точек и, возможно, другими атрибутами, которые затрудняют воспроизведение макета. Очевидно, что не увидев ваш входной файл, я больше ничего не могу вам сказать.