Как использовать AcroTextExtractor.exe программно?
Я пытаюсь сделать пакетное извлечение текста из файлов PDF. Перепробовал много библиотек и Adobe Reader кажется мне наиболее точным экстрактором текста.
Я заметил файл AcroTextExtractor.exe в папке, где установлен Adobe Reader. Это имя кажется многообещающим, и поиск в Google показывает, что этот файл является частью процедуры преобразования PDF в текст.
Как вызвать этот файл из командной строки, чтобы сделать извлечение текста?
1 ответ
Я тоже хотел использовать это для того же сценария.
Я провел эксперимент, чтобы проверить, могу ли я изучить командную строку, которая может быть видна при запуске AcroTextExtractor.exe
,
Я взял большой PDF-файл и открыл его в Adobe Acrobat Reader DC версия 2018.009.20050. Затем я сохранил его как текст (Файл | Сохранить как другой | Текст), и пока Reader генерировал текстовый файл (успешно), я проверил все запущенные процессы в диспетчере задач, sysinternals Process Explorer и с WMI в Powershell.
К сожалению, я не смог найти процесс, запущенный с путем, включая AcroTextExtractor.exe
; таким образом я не мог захватить командную строку.
Это вполне может быть красная сельдь.