API поиска сходства Watson Visual Recognition в отношении большого объема изображений

У нас есть требование клиента искать похожие изображения в коллекции с помощью Watson Visual Recognition. В документации упоминается, что каждая коллекция может содержать 1 миллион изображений. Таким образом, у меня есть следующие вопросы:

а) Каков максимальный размер изображения?

б) Каждая загрузка изображений занимает до 1 секунды, а стандартный план имеет ограничение в 25000 изображений в день. Таким образом, можно добавить только 25 тыс. Изображений в коллекцию / день?

в) клиент имеет около 2 миллионов изображений. Как мы можем загрузить изображения быстрее?

г) Есть ли отдельный план для оптовых объемов?

2 ответа

Решение

Рави, я вижу, ты тоже разместил свой вопрос на developerWorks - посмотри мой ответ здесь: https://developer.ibm.com/answers/questions/379227/similarity-search-api-of-watson-visual-recognition/

Эта информация взята из документации по визуальному распознаванию по следующему адресу: https://www.ibm.com/watson/developercloud/doc/visual-recognition/customizing.html

Ограничения по размеру
Существуют ограничения по размеру для тренировочных звонков и данных:

  • Служба принимает максимум 10000 изображений или 100 МБ на каждый ZIP-файл.
  • Сервис требует минимум 10 изображений на каждый ZIP-файл.
  • Служба принимает максимум 256 МБ на учебный звонок.
  • Минимальный рекомендуемый размер изображения - 32х32 пикселя.

Руководство по хорошей подготовке Якорная ссылка
Следующие рекомендации не применяются API. Тем не менее, сервис имеет тенденцию работать лучше, когда данные обучения придерживаются их:

  • В каждом файле.zip рекомендуется минимум 50 изображений, поскольку менее 50 изображений могут снизить качество обученного классификатора.
  • Если качество и содержание обучающих данных одинаковы, то классификаторы, которые обучаются на большем количестве изображений, как правило, будут более точными, чем классификаторы, которые обучаются на меньшем количестве изображений. Преимущества обучения классификатора на большем количестве изображений составляют около 5000 изображений, и это может занять некоторое время для обработки. Вы можете обучить классификатор более чем на 5000 изображений, но это может существенно не повысить точность этого классификатора.
  • Загрузка в общей сложности 150-200 изображений в одном файле.zip обеспечивает оптимальный баланс между временем, затрачиваемым на обучение, и улучшением точности классификатора. Более 200 изображений увеличивают время, и это увеличивает точность, но с уменьшением отдачи на количество времени, которое требуется.
  • Включите примерно одинаковое количество изображений в каждом файле примеров. Включение неравного количества изображений может привести к снижению качества обученного классификатора.
  • На точность вашего пользовательского классификатора могут влиять типы изображений, которые вы предоставляете для его обучения. Предоставьте примеры изображений, которые похожи на изображения, которые вы планируете анализировать. Например, если вы обучаете классификатор "тигр", ваш классификатор может быть менее точным, если вы предоставляете только изображения тигров в зоопарке, сделанные мобильным телефоном для обучения классификатора, но вы хотите проверить классификатор на изображениях тигров. в дикой природе, сделанные профессиональными фотографами.

Рекомендации по классификации большого объема Anchor link

Если вы хотите классифицировать много изображений, отправка одного изображения за раз может занять много времени. Вы можете максимизировать эффективность и производительность услуги следующими способами:

  • Измените размер изображения, чтобы оно не превышало 320 пикселей по ширине или высоте. Изображения не должны быть с высоким разрешением.
  • Отправляйте изображения пакетами в виде сжатых (.zip) файлов.
  • Укажите только те классификаторы, для которых вы хотите получить результаты, в параметре classifier_ids. Если вы не укажете значение для этого параметра, служба классифицирует изображения в соответствии с классификатором по умолчанию, и для возврата ответа требуется больше времени.
Другие вопросы по тегам