Вставить PDF-изображения в текст, из pdftotext и pdfimages?
Я смог установить pdftotext
утилита (поставляется с Linux, я думаю) для преобразования PDF в текст и извлечения изображений на Mac:
# install poppler, xpdf, and imagemagick
brew install imagemagick
brew install poppler # not sure if this worked, had to install `xpdf` from online .dmg
pdftotext sample.pdf output.txt
pdfimages sample.pdf pdf-images
# then convert .ppm to .jpg
# one at a time:
# convert pdf-images-001.ppm pdf-images-001.jpg
# batch:
mogrify -format jpg *.ppm
Так что теперь у меня есть output.txt
с (впечатляюще хорошо отформатированным) текстом из PDF и кучей изображений, которые мне пришлось конвертировать из .ppm
в .jpg
с ImageMagick.
Вопрос в том, есть ли способ вставить ссылки на эти изображения в нужных местах output.txt
документ? Или есть ли способ объединить эти две команды, чтобы он извлекал текст и изображения и создавал ссылки в тексте на изображения одновременно? Интересно, нужно ли мне вручную писать код синтаксического анализа, чтобы вставлять изображения в текст самостоятельно.