Рендеринг фрагмента документа Word / PDF в поиске
Я заинтересован в создании программной системы, которая будет подключаться к различным источникам документов, извлекать контент из документов, содержащихся в каждом источнике, и делать извлеченный контент доступным для поисковых систем, таких как Elastic или Solr. Эта поисковая система будет служить бэкэндом для поискового веб-приложения.
Меня интересует рендеринг фрагментов этих документов в результатах поиска для известных типов, таких как Microsoft Word и PDF. Как можно реализовать рендеринг фрагментов документов в поиске?
Я был бы рад предоставить эти фрагменты в любом формате, включая изображения. Я просто хочу, чтобы мои пользователи могли отформатировать предварительный просмотр своих результатов для известных типов.
Спасибо!