Классификация изображений размером 64x4, представляющих пианино, как настоящих или поддельных

Я хочу создать GAN для создания роялей (то, что я опишу, отличается от настоящих роялей, но может рассматриваться как их вариант). Таким образом, моя первая проблема заключается в том, что мне нужна дискриминаторная сеть, которая может определить, настоящий или фальшивый пианино.

Пиано-ролл - это 2-мерная матрица, поэтому ее можно визуализировать как изображение. Но это совсем не похоже на изображения лиц, кошек и собак, поэтому "обычные" методы глубокого обучения для классификации изображений вряд ли сработают. Поэтому мне нужен совет о том, что может сработать и что пытались исследовать.

Формат моих данных - это матрица 64x4, так что есть 64 временных шага и одновременно можно играть не более четырех нот. Каждая ненулевая ячейка представляет начало ноты, а целочисленное значение - высоту ноты. Итак, 1 - самая низкая нота, а 48 - самая высокая нота (всего четыре октавы).

Ниже приведены примеры того, как выглядят эти "пианино". Чтобы увидеть их, вам придется увеличить масштаб с помощью программы просмотра изображений, которая не размывает пиксели. Каждый прямоугольник - это рояль. Каждый пиксель представляет начало ноты. Я закодировал их цветом, чтобы оттенки красного соответствовали нотам C в разных октавах, зеленый - нотам D и так далее. Серый цвет является цветом фона и означает отсутствие заметок. Сеть должна классифицировать их как "настоящие".

Ниже приведены примеры "фальшивых" пианино. Они генерируются случайным образом и затем кодируются цветом с использованием схемы, описанной выше. В сети следует отнести их к категории "фальшивых".

0 ответов

Другие вопросы по тегам