Определение размера выдержки в музыкальных файлах для извлечения объектов

Я занимаюсь музыкально-информационным поисковым проектом. В этом мне нужно разделить песни на разделы / выдержки. У меня проблемы с определением размера / длины выдержки. В газетах, с которыми я сталкивался, я понял, что они взяли выдержки длиной 20 - 30 секунд. Даже в GTZAN набор данных, продолжительность выдержки составляет 30 секунд. Этот набор данных широко использовался в исследовательских проектах по всему миру для классификации жанров и подобных задач классификации.

мои вопросы

  1. Будет ли отрывок длиной 30 секунд представлять всю песню?
  2. Какова причина того, что эти выдержки должны быть 30 секунд? Почему не 60 секунд или почему не 10 секунд?
  3. Какова логика выбора 30-секундного фрагмента песни из всех 30-секундных фрагментов песни?

1 ответ

Решение

GTZAN был специально использован для классификации жанров, и имеет смысл, что вам не нужна вся длина каждой песни для этой задачи. Если вы включаете радио, вы обычно можете определить жанр за пару секунд (если это не авангардный жанр), а в большинстве популярных жанров присутствуют повторяющиеся элементы (структура: хор / стих, инструменты), поэтому обычно 30 секунд. обеспечивает захват как стиха, так и хора для представления стилистических элементов каждой песни (так как обычно это релевантные части, которые определяют жанр, а не интро / аутро). И причина получения отрывков, а не всего, состоит в том, чтобы просто отредактировать повторения и сохранить набор данных настолько маленьким, насколько это необходимо. Избыточность обычно не то, что вам действительно нужно / нужно. Таким образом, 10 секунд не будут захватывать все "блоки" (припев / стих), а 60 секунд будут захватывать их более одного раза (опять же, это справедливо только для жанров с непрогрессивными структурами).

Другие вопросы по тегам