Как использовать AcroTextExtractor.exe программно?

Я пытаюсь сделать пакетное извлечение текста из файлов PDF. Перепробовал много библиотек и Adobe Reader кажется мне наиболее точным экстрактором текста.

Я заметил файл AcroTextExtractor.exe в папке, где установлен Adobe Reader. Это имя кажется многообещающим, и поиск в Google показывает, что этот файл является частью процедуры преобразования PDF в текст.

Как вызвать этот файл из командной строки, чтобы сделать извлечение текста?

1 ответ

Я тоже хотел использовать это для того же сценария.

Я провел эксперимент, чтобы проверить, могу ли я изучить командную строку, которая может быть видна при запуске AcroTextExtractor.exe,

Я взял большой PDF-файл и открыл его в Adobe Acrobat Reader DC версия 2018.009.20050. Затем я сохранил его как текст (Файл | Сохранить как другой | Текст), и пока Reader генерировал текстовый файл (успешно), я проверил все запущенные процессы в диспетчере задач, sysinternals Process Explorer и с WMI в Powershell.

К сожалению, я не смог найти процесс, запущенный с путем, включая AcroTextExtractor.exe; таким образом я не мог захватить командную строку.

Это вполне может быть красная сельдь.

Другие вопросы по тегам