Аудиоанализ Spotify - средние значения для тембра

Согласно Spotify документация, 'Timbre '- это вектор из 12 значений, извлеченных из аудиосегмента длительностью примерно 2 секунды, например:

"segments": [
    {
      (...),
      "timbre": [
        23.312,
        -7.374,
        -45.719,
        294.874,
        51.869,
        -79.384,
        -89.048,
        143.322,
        -4.676,
        -51.303,
        -33.274,
        -19.037
      ]
    }
  ],(...)

Этот сегмент выбран случайным образом? Я не нашел никакой информации, даже на странице старой документации Echonest, о том, как этот сегмент выбран.

Мне бы хотелось, чтобы этот вектор признаков был усреднен для гораздо более длинного сегмента, например, предварительного просмотра 30-х годов, чтобы классифицировать звук с максимально возможной точностью.

Возможно ли это с помощью конечной точки Spotify Audio Analysis или мне нужно обратиться к более крупным проектам, таким как Million Song Project?

0 ответов

Другие вопросы по тегам