Определение размера выдержки в музыкальных файлах для извлечения объектов
Я занимаюсь музыкально-информационным поисковым проектом. В этом мне нужно разделить песни на разделы / выдержки. У меня проблемы с определением размера / длины выдержки. В газетах, с которыми я сталкивался, я понял, что они взяли выдержки длиной 20 - 30 секунд. Даже в GTZAN
набор данных, продолжительность выдержки составляет 30 секунд. Этот набор данных широко использовался в исследовательских проектах по всему миру для классификации жанров и подобных задач классификации.
мои вопросы
- Будет ли отрывок длиной 30 секунд представлять всю песню?
- Какова причина того, что эти выдержки должны быть 30 секунд? Почему не 60 секунд или почему не 10 секунд?
- Какова логика выбора 30-секундного фрагмента песни из всех 30-секундных фрагментов песни?
1 ответ
GTZAN
был специально использован для классификации жанров, и имеет смысл, что вам не нужна вся длина каждой песни для этой задачи. Если вы включаете радио, вы обычно можете определить жанр за пару секунд (если это не авангардный жанр), а в большинстве популярных жанров присутствуют повторяющиеся элементы (структура: хор / стих, инструменты), поэтому обычно 30 секунд. обеспечивает захват как стиха, так и хора для представления стилистических элементов каждой песни (так как обычно это релевантные части, которые определяют жанр, а не интро / аутро). И причина получения отрывков, а не всего, состоит в том, чтобы просто отредактировать повторения и сохранить набор данных настолько маленьким, насколько это необходимо. Избыточность обычно не то, что вам действительно нужно / нужно. Таким образом, 10 секунд не будут захватывать все "блоки" (припев / стих), а 60 секунд будут захватывать их более одного раза (опять же, это справедливо только для жанров с непрогрессивными структурами).