Изменение размера изображений переменного размера для обнаружения объектов
Я использую набор данных обнаружения объектов KITTI для обучения Faster R-CNN с ResNet 101, предварительно обученным в MS COCO. KITTI изображения "в основном" размер 375x1242
Когда я имел batch_size: 1
, все было идеально. мой keep_aspect_ratio_resizer
был как ниже, как это было предложено самим TensorFlow.
min_dimension: 600
max_dimension: 1987
Но теперь я хочу использовать batch_size: 5, но продолжаю получать ошибки несоответствия размеров. Потому что некоторые изображения имеют немного меньший размер, например 370x1224 и т. Д.
Я не могу найти генерала keep_aspect_ratio_resizer
ценности. Я попробовал приведенные ниже значения на основе значений, которые я видел в сообщениях об ошибках, но я не могу сделать все изображения одинакового размера на самом деле
min_dimension: 600
max_dimension: 1985
min_dimension: 599
max_dimension: 1985
2 ответа
Исправлено добавлением tf.image.resize_image_with_crop_or_pad(images, max_height, max_width)
в create_input_queue()
в https://github.com/tensorflow/models/blob/master/research/object_detection/legacy/trainer.py
Вы можете изменить размеры изображений самостоятельно, чтобы избежать ошибки округления, или вы можете попробовать сгруппировать элементы одного размера в пакеты.
Предполагая, что у вас есть генератор изображений и что у изображений есть атрибут размера, вы можете создать генератор, который будет выдавать партии изображений одинакового размера, как показано ниже:
from itertools import groupby
from collections import deque, defaultdict
def same_size_batches(images, batch_size=5):
image_cache = defaultdict(deque)
# We assume the image object has a size parameter we can group by
for size, images in groupby(images, key=lambda image: image.size):
for image in images:
image_cache[size].append(image)
# Everytime our batch gets big enough, yield it and reset
if len(image_cache[size]) == batch_size:
yield iter(image_cache[size])
image_cache[size].clear()
Основная часть здесь - это группа, которая группирует последовательные элементы по одному и тому же ключу и возвращает этот ключ, а также генератор элементов, соответствующих этому ключу. В нашем случае ключом является размер изображения.
Затем мы сохраняем кэш элементов одинакового размера, и каждый раз, когда один из размеров достигает желаемого размера партии, мы выдаем генератор для этой партии.
Мы можем продемонстрировать это, работая с поддельным объектом изображения, который имеет требуемый параметр размера:
import random
class FakeImage(object):
def __init__(self, _id):
self.id = _id
self.size = (370, 1224) if random.random() < 0.25 else (375, 1242)
def __repr__(self):
return "<Image {} {}>".format(self.id, self.size)
images = (FakeImage(_id) for _id in range(100))
for batch in same_size_batches(images, batch_size=5):
print(list(batch))
Это приводит к чему-то вроде:
[<Image 0 (375, 1242)>, <Image 2 (375, 1242)>, <Image 3 (375, 1242)>, <Image 4 (375, 1242)>, <Image 6 (375, 1242)>]
[<Image 7 (375, 1242)>, <Image 8 (375, 1242)>, <Image 9 (375, 1242)>, <Image 10 (375, 1242)>, <Image 12 (375, 1242)>]
[<Image 1 (370, 1224)>, <Image 5 (370, 1224)>, <Image 11 (370, 1224)>, <Image 14 (370, 1224)>, <Image 16 (370, 1224)>]
[<Image 13 (375, 1242)>, <Image 15 (375, 1242)>, <Image 18 (375, 1242)>, <Image 19 (375, 1242)>, <Image 20 (375, 1242)>]
[<Image 21 (375, 1242)>, <Image 23 (375, 1242)>, <Image 24 (375, 1242)>, <Image 25 (375, 1242)>, <Image 26 (375, 1242)>]
...
Мы не гарантируем, что создадим все изображения, если мы не получим достаточно, чтобы заполнить блок размером пакета, но если вход является бесконечным генератором, это не проблема.