Каким может быть лучший способ реализовать поиск изображений с использованием текста PowerPoint?
Я хочу создать утилиту поиска, в которой мы будем использовать текст внутри слайдов Powerpoint и изображение каждого слайда в Powerpoint. После ввода критерия поиска приложение должно вернуть k наиболее релевантных изображений слайдов. Для этого я исследовал реализацию гибридного поиска в электронной коммерции Pinecone, которая использует разреженные вложения (модель BM25) для текста и плотные вложения (модель CLIP) для изображений ->https://docs.pinecone.io/docs/ecommerce-search
Проблема в том, что он предназначен для поиска в электронной коммерции, где входные токены короче по длине по сравнению с текстом из Powerpoint. Кроме того, в Power Point текст довольно неструктурирован.
Мои текущие этапы подготовки данных:
- Конвертируйте файл PPTX в PDF с помощью Win32com.
- Конвертируйте каждую страницу в файлы PDF в PNG с помощью pypdfium2.
- Извлечь текст из PDF-файлов с помощью pypdfium2
- Разделение текста на фрагменты по 77 слов (это максимум, который могут принять модели, которые Pineocone использует для своей реализации)
- Создайте фрейм данных, где каждый фрагмент текста соответствует соответствующему изображению слайда (формат PIL).
Может ли быть другой способ сделать это?