Распознавание логотипа на изображениях
Кто-нибудь знает о недавней академической работе по распознаванию логотипов на изображениях? Пожалуйста, отвечайте, только если вы знакомы с этой конкретной темой (я могу искать в Google по запросу "распознавание логотипа", большое спасибо). Любой, кто разбирается в компьютерном зрении и проделал работу по распознаванию объектов, также может оставить комментарий.
Обновление: пожалуйста, обращайтесь к алгоритмическим аспектам (какой подход, по вашему мнению, подходит, документы на местах, должны ли они работать (и были ли они протестированы) для реальных данных, соображения эффективности), а не к техническим аспектам (используемый язык программирования или будь то с OpenCV...) Также может помочь работа по индексации изображений и контентному поиску изображений.
4 ответа
Вы можете попробовать использовать локальные функции, такие как SIFT, здесь: http://en.wikipedia.org/wiki/Scale-invariant_feature_transform
Это должно работать, потому что форма логотипа обычно постоянна, поэтому извлеченные элементы должны хорошо совпадать.
Рабочий процесс будет таким:
Обнаружение углов (например, детектор углов Harris) - для логотипа Nike это два острых конца.
Вычислить дескрипторы (например, SIFT - целочисленный вектор 128D)
На этапе обучения помните их; на этапе сопоставления найдите ближайших соседей для каждой функции в базе данных, полученной во время обучения. Наконец, у вас есть набор совпадений (некоторые из них, вероятно, не так).
Вычеркните неправильные совпадения, используя RANSAC. Таким образом, вы получите матрицу, которая описывает преобразование из идеального логотипа в изображение, в котором вы найдете логотип. В зависимости от настроек вы можете разрешить различные виды преобразований (только перевод; перевод и вращение; аффинное преобразование).
В книге Шелиски есть глава (4.1) о местных особенностях. http://research.microsoft.com/en-us/um/people/szeliski/Book/
PS
Я предположил, что вы хотите найти логотипы на фотографиях, например, найти все рекламные щиты Pepsi, чтобы они могли быть искажены. Если вам нужно найти на экране логотип телеканала (чтобы он не вращался и не масштабировался), вы можете сделать это проще (поиск по шаблону или что-то в этом роде).
Обычный SIFT не учитывает информацию о цвете. Поскольку логотипы обычно имеют постоянные цвета (хотя точный цвет зависит от молнии и камеры), вы можете как-то рассмотреть информацию о цвете.
Мы работали над обнаружением / распознаванием логотипа на реальных изображениях. Мы также создали набор данных FlickrLogos-32 и сделали его общедоступным, включая данные, основную правду и сценарии оценки.
В нашей работе мы рассматривали распознавание логотипа как проблему поиска, чтобы упростить распознавание нескольких классов и позволить таким системам быть легко масштабируемыми для многих (например, тысяч) классов логотипов.
Недавно мы разработали методику объединения под названием Bundle min-Hashing, которая объединяет пространственные конфигурации нескольких локальных объектов в очень отличительные пакеты. Представление пакета можно использовать как для поиска, так и для распознавания. Смотрите следующие примеры тепловых карт для обнаружения логотипа:
Вы найдете более подробную информацию о внутренних операциях, потенциальных применениях подхода, экспериментах по его выполнению и, конечно, также много ссылок на связанные работы в статьях [1] [2].
Над этим работали: поиск и сопоставление товарных знаков в спортивных видеобазах получили PDF-документ: http://scholar.google.it/scholar?cluster=9926471658203167449&hl=en&as_sdt=2000
Мы использовали SIFT в качестве дескрипторов товарных знаков и изображений, а также нормализованное сопоставление пороговых значений для вычисления расстояния между моделями и изображениями. В нашей последней работе мы смогли значительно сократить вычисления с использованием метамоделей, созданных для оценки актуальности точек SIFT, которые присутствуют в разных версиях одного и того же товарного знака.
Я бы сказал, что в целом работать с видео сложнее, чем работать с фотографиями из-за очень плохого визуального качества используемых телевизионных стандартов.
Marco
Я работал над проектом, где мы должны были сделать что-то очень похожее. Сначала я попытался использовать методы обучения Haar с помощью этого программного обеспечения
Это работало, но не было оптимальным решением для наших нужд. Наши исходные изображения (где мы искали логотип) были фиксированного размера и содержали только логотип. Благодаря этому мы смогли использовать cvMatchShapes с известным хорошим соответствием и сравнить возвращаемое значение, чтобы посчитать хорошее соответствие.