Как определить количество визуальных слов для использования в контентной системе поиска изображений, которая использует подход Bag of Visual Words?

Я пытаюсь создать систему поиска изображений, основанную на контенте, которая может находить почти повторяющиеся изображения по заданному изображению. Количество изображений, которые мне нужно сохранить в этой системе, составляет около 2 миллионов.

Я строю систему CBIR поверх Лиры. Я планирую использовать SIFT вместе с Bag of Visual Words для извлечения функций из всех моих 2 миллионов изображений, создания "словаря" слов (патчей изображений), создания гистограммы для каждого изображения, которая подсчитывает вхождение каждого слова в словарь,

Учитывая, что у меня есть 2 миллиона изображений, и я хочу найти почти повторяющиеся изображения (повернутые, растянутые, слегка подсвеченные), сколько "слов" должно быть в моем словаре? Или что такое хороший диапазон? Есть ли точная формула, чтобы получить это?

0 ответов

Другие вопросы по тегам