Вставить PDF-изображения в текст, из pdftotext и pdfimages?

Я смог установить pdftotext утилита (поставляется с Linux, я думаю) для преобразования PDF в текст и извлечения изображений на Mac:

# install poppler, xpdf, and imagemagick
brew install imagemagick
brew install poppler # not sure if this worked, had to install `xpdf` from online .dmg
pdftotext sample.pdf output.txt
pdfimages sample.pdf pdf-images
# then convert .ppm to .jpg
# one at a time:
# convert pdf-images-001.ppm pdf-images-001.jpg
# batch:
mogrify -format jpg *.ppm

Так что теперь у меня есть output.txt с (впечатляюще хорошо отформатированным) текстом из PDF и кучей изображений, которые мне пришлось конвертировать из .ppm в .jpg с ImageMagick.

Вопрос в том, есть ли способ вставить ссылки на эти изображения в нужных местах output.txt документ? Или есть ли способ объединить эти две команды, чтобы он извлекал текст и изображения и создавал ссылки в тексте на изображения одновременно? Интересно, нужно ли мне вручную писать код синтаксического анализа, чтобы вставлять изображения в текст самостоятельно.

0 ответов

Другие вопросы по тегам