Каким может быть лучший способ реализовать поиск изображений с использованием текста PowerPoint?

Question

Каким может быть лучший способ реализовать поиск изображений с использованием текста PowerPoint?

Я хочу создать утилиту поиска, в которой мы будем использовать текст внутри слайдов Powerpoint и изображение каждого слайда в Powerpoint. После ввода критерия поиска приложение должно вернуть k наиболее релевантных изображений слайдов. Для этого я исследовал реализацию гибридного поиска в электронной коммерции Pinecone, которая использует разреженные вложения (модель BM25) для текста и плотные вложения (модель CLIP) для изображений ->https://docs.pinecone.io/docs/ecommerce-search

Проблема в том, что он предназначен для поиска в электронной коммерции, где входные токены короче по длине по сравнению с текстом из Powerpoint. Кроме того, в Power Point текст довольно неструктурирован.

Мои текущие этапы подготовки данных:

Конвертируйте файл PPTX в PDF с помощью Win32com.
Конвертируйте каждую страницу в файлы PDF в PNG с помощью pypdfium2.
Извлечь текст из PDF-файлов с помощью pypdfium2
Разделение текста на фрагменты по 77 слов (это максимум, который могут принять модели, которые Pineocone использует для своей реализации)
Создайте фрейм данных, где каждый фрагмент текста соответствует соответствующему изображению слайда (формат PIL).

Может ли быть другой способ сделать это?

-2

python machine-learning search nlp pinecone

Источник

user4877683 25 авг '23 в 12:06

0 ответов

Другие вопросы по тегам python machine-learning search nlp pinecone