Мешки распознавания объектов слов для больших наборов данных

Я реализую распознавание объектов с мешками слов гистограмм. Гистограммы состоят из 200 "слов" на изображение, kmeans из дескрипторов. Проблема состоит в том, что для большого набора данных, скажем, 5000 изображений, у нас внезапно получается 200х5000=1 000 000 слов в гистограмме. Это означает, что каждый объект будет представлен гистограммой длиной 1 000 000.

Это становится слишком большим и громоздким после некоторой точки. Есть ли что-нибудь вокруг этого?

1 ответ

Обычно вы выбираете размер таблицы кодирования, который не зависит от количества обучающих образов. Вы должны построить кодовую книгу, запустив k-means (или какой-либо другой метод изучения словаря) над набором дескрипторов, извлеченных из всех обучающих данных.

Итак, в вашем примере, если у вас было 5000 обучающих изображений и приблизительно 1000 дескрипторов, извлеченных из каждого изображения, это дало бы вам 5 000 000 дескрипторов, которые вы могли бы кластеризовать с помощью k-средних.

Это может занять очень много времени, поэтому вы можете выбрать кластеризацию, используя случайное подмножество дескрипторов.

Другие вопросы по тегам