Как вставить невидимый текст в PDF?
Я хочу вставить невидимый текст в существующий файл PDF, чтобы сделать его доступным для поиска.
Какую библиотеку я должен использовать?
Буду признателен за ссылки на конкретные методы API для использования.
Бесплатный, в идеале с открытым исходным кодом.
Большое спасибо!
(Для любопытных: я хочу автоматически распознавать входящие отсканированные документы и делать их доступными для поиска в репозитории Alfresco)
3 ответа
3 варианта.
- Режим визуализации текста 3: "Без обводки, без заливки".
myPdfContentByte.setTextRenderMode(PdfContentByte.TEXT_RENDER_MODE_INVISIBLE);
- Нарисуйте текст позади чего-то. Вы, вероятно, получили отсканированные изображения страниц. IText-х
myPdfStamper.getUnderContent(pageNum)
позволит вам нарисовать текст под скан. - Нарисуйте текст за пределами носителя страницы или рамки обрезки. Если вы просто хотите, чтобы какая-то случайная поисковая система, работающая в формате PDF, поднимала вашу страницу, это сработало, но если вы хотите, чтобы люди, просматривающие PDF, увидели соответствующее поле выбора текста... не так уж и много.
Это показывает, как создать PDF-документ, содержащий текст, и это показывает, как добавить изображение. Сначала добавьте текст, а затем добавьте изображение поверх него - текст станет "невидимым" для конечного пользователя, но останется доступным для поиска поисковыми системами. Это также может быть полезно.
Вам не нужно делать текст невидимым. Просто визуализируйте их в соответствующем месте, но наложите отсканированное изображение на текст. Или вы можете визуализировать текст поверх изображения и установить альфа-значение цвета обводки и кисти на ноль.