Как вставить невидимый текст в PDF?

Я хочу вставить невидимый текст в существующий файл PDF, чтобы сделать его доступным для поиска.

Какую библиотеку я должен использовать?
Буду признателен за ссылки на конкретные методы API для использования.

Бесплатный, в идеале с открытым исходным кодом.
Большое спасибо!

(Для любопытных: я хочу автоматически распознавать входящие отсканированные документы и делать их доступными для поиска в репозитории Alfresco)

3 ответа

Решение

3 варианта.

  1. Режим визуализации текста 3: "Без обводки, без заливки". myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
  2. Нарисуйте текст позади чего-то. Вы, вероятно, получили отсканированные изображения страниц. IText-х myPdfStamper.getUnderContent(pageNum) позволит вам нарисовать текст под скан.
  3. Нарисуйте текст за пределами носителя страницы или рамки обрезки. Если вы просто хотите, чтобы какая-то случайная поисковая система, работающая в формате PDF, поднимала вашу страницу, это сработало, но если вы хотите, чтобы люди, просматривающие PDF, увидели соответствующее поле выбора текста... не так уж и много.

Это показывает, как создать PDF-документ, содержащий текст, и это показывает, как добавить изображение. Сначала добавьте текст, а затем добавьте изображение поверх него - текст станет "невидимым" для конечного пользователя, но останется доступным для поиска поисковыми системами. Это также может быть полезно.

Вам не нужно делать текст невидимым. Просто визуализируйте их в соответствующем месте, но наложите отсканированное изображение на текст. Или вы можете визуализировать текст поверх изображения и установить альфа-значение цвета обводки и кисти на ноль.

Другие вопросы по тегам