Разреженный набор данных для tfrecords

У меня есть редкий набор данных, в котором некоторые изображения не имеют каких-либо интересных объектов. Я хочу использовать этот набор данных для обнаружения объектов, поэтому мне нужно сгенерировать tfrecords.

Для этих изображений без каких-либо обнаружений в наборе данных по-прежнему есть файлы аннотаций для каждого изображения со всеми записями, заполненными нулями: instance_id= 0, class_id = 0.0, x = 0.0, y = 0.0, w= 0.0, h=0.0 и т.п.

В моей карте меток, конечно, идентификаторы меток начинаются с 1, так как это требование Tensorflow (идентификатор 0 метки зарезервирован для фона Tensorflow)

Теперь я не понимаю, как я буду создавать tfrecords. Когда я пытаюсь использовать все файлы аннотаций, у меня появляется ключевая ошибка для class_id=0, потому что это не на карте лейбла.

Я не думаю, что при создании tfrecords можно не использовать какие-либо файлы аннотаций для образца, поэтому мне нужно использовать эту абстрактную аннотацию с нулями. Есть идеи о том, как решить эту проблему?

label_map.pbtxt

    item {
      id: 1
      name: '1.0'
      display_name: 'table'
    }

    item {
      id: 2
      name: '2.0'
      display_name: 'chair'
    }

    item {
      id: 3
      name: '3.0'
      display_name: 'window'
    }


def prepare_example(image_path, annotations, label_map_dict):
  """Converts a dictionary with annotations for an image to tf.Example proto.

  Args:
    image_path: The complete path to image.
    annotations: A dictionary representing the annotation of a single object
      that appears in the image.
    label_map_dict: A map from string label names to integer ids.

  Returns:
    example: The converted tf.Example.
  """
  with tf.gfile.GFile(image_path, 'rb') as fid:
    encoded_png = fid.read()
  encoded_png_io = io.BytesIO(encoded_png)
  image = pil.open(encoded_png_io)
  image = np.asarray(image)

  key = hashlib.sha256(encoded_png).hexdigest()

  width = int(image.shape[1])
  height = int(image.shape[0])

  xmin_norm = annotations['x1'] / float(width)
  ymin_norm = annotations['y1'] / float(height)
  xmax_norm = (annotations['x1'] + annotations['w']) / float(width)
  ymax_norm = (annotations['y1'] + annotations['h']) / float(height)

  difficult_obj = [0]*len(xmin_norm)


  example = tf.train.Example(features=tf.train.Features(feature={
      'image/height': dataset_util.int64_feature(height),
      'image/width': dataset_util.int64_feature(width),
      'image/filename': dataset_util.bytes_feature(image_path.encode('utf8')),
      'image/source_id': dataset_util.bytes_feature(image_path.encode('utf8')),
      'image/key/sha256': dataset_util.bytes_feature(key.encode('utf8')),
      'image/encoded': dataset_util.bytes_feature(encoded_png),
      'image/format': dataset_util.bytes_feature('png'.encode('utf8')),
      'image/object/bbox/xmin': dataset_util.float_list_feature(xmin_norm),
      'image/object/bbox/xmax': dataset_util.float_list_feature(xmax_norm),
      'image/object/bbox/ymin': dataset_util.float_list_feature(ymin_norm),
      'image/object/bbox/ymax': dataset_util.float_list_feature(ymax_norm),
      'image/object/class/label': dataset_util.bytes_list_feature(
          [x.encode('utf8') for x in annotations['class_label']]),
      'image/object/class/text': dataset_util.int64_list_feature(
          [label_map_dict[x] for x in annotations['class_label']]),
      'image/object/difficult': dataset_util.int64_list_feature(difficult_obj),
  }))

  return example

def read_annotation_file(filename):
  """Reads a CN annotation file.

  Converts a CN annotation file into a dictionary containing all the
  relevant information.

  Args:
    filename: the path to the annotataion text file.

  Returns:
    anno: A dictionary with the converted annotation information. See annotation
    README file for details on the different fields.
  """
  f = open(filename)
  reader = csv.reader(f)
  next(reader)
  content = reader# skip header
  content = [x for x in content][0]

  anno = {}
  anno['inst_id'] = np.array([float(content[0])])
  anno['class_label'] = np.array([content[1]])

  anno['x1'] = np.array([float(content[2])])
  anno['y1'] = np.array([float(content[3])])

  anno['w'] = np.array([float(content[4])])
  anno['h'] = np.array([float(content[5])])

  return anno

0 ответов

Другие вопросы по тегам