Почему мы должны использовать пакет визуальных слов (или влад) вместо хранения дескрипторов?
Я много читал о методах кодирования изображений, например, Bag of Visual Words, VLAD или Fisher Vectors.
Однако у меня есть очень простой вопрос: мы знаем, что мы можем выполнить сопоставление дескрипторов (перебор или использование методов ANN). Мой вопрос: почему бы нам просто не использовать их?
Насколько мне известно, сумка визуальных слов состоит из сотен тысяч измерений на изображение, чтобы иметь точное представление. Если мы рассмотрим изображение с 1 тысячей дескрипторов SIFT (что уже является значительным числом), у нас будет 128 тысяч плавающих чисел, что, как правило, меньше, чем число измерений BoVW, так что это не по причине памяти (по крайней мере, если мы не рассматривают проблемы большого масштаба, тогда предпочтительны коды VLAD/FV).
Тогда почему мы используем такие методы кодирования? Это из соображений производительности?
1 ответ
Мне было трудно понять твой вопрос.
Что касается сопоставления дескрипторов, грубой силы, то в поисковых системах используются методы сопоставления ANN. Последние методы сопоставления включают KDtree, Hashing и т. Д.
BoVW - это традиционная схема представления. Когда-то BOVW в сочетании с Inverted index был современным в информационно-поисковых системах. Но размер (использование памяти на изображение) представления BOVW (до миллионов) ограничивает фактическое количество изображений, которые можно проиндексировать на практике.
FV и VLAD являются компактными визуальными представлениями с высокой способностью распознавания, чего не хватало BoVW. Известно, что VLAD чрезвычайно компактен (32 КБ на изображение), очень разборчив и эффективен в задачах поиска и классификации.
Так что да, такие методы кодирования используются по соображениям производительности. Вы можете проверить эту статью для более глубокого понимания: объединение локальных дескрипторов в компактное представление изображения.