Каким может быть лучший способ реализовать поиск изображений с использованием текста PowerPoint?

Я хочу создать утилиту поиска, в которой мы будем использовать текст внутри слайдов Powerpoint и изображение каждого слайда в Powerpoint. После ввода критерия поиска приложение должно вернуть k наиболее релевантных изображений слайдов. Для этого я исследовал реализацию гибридного поиска в электронной коммерции Pinecone, которая использует разреженные вложения (модель BM25) для текста и плотные вложения (модель CLIP) для изображений ->https://docs.pinecone.io/docs/ecommerce-search

Проблема в том, что он предназначен для поиска в электронной коммерции, где входные токены короче по длине по сравнению с текстом из Powerpoint. Кроме того, в Power Point текст довольно неструктурирован.

Мои текущие этапы подготовки данных:

  1. Конвертируйте файл PPTX в PDF с помощью Win32com.
  2. Конвертируйте каждую страницу в файлы PDF в PNG с помощью pypdfium2.
  3. Извлечь текст из PDF-файлов с помощью pypdfium2
  4. Разделение текста на фрагменты по 77 слов (это максимум, который могут принять модели, которые Pineocone использует для своей реализации)
  5. Создайте фрейм данных, где каждый фрагмент текста соответствует соответствующему изображению слайда (формат PIL).

Может ли быть другой способ сделать это?

0 ответов

Другие вопросы по тегам