Зачем вам нужно сегментировать аудио по 5-30 секунд каждый для построения акустической модели?
Sphinx4 требует, чтобы звук в акустической модели был сегментирован по 5-30 секунд каждый. Зачем? А как вы сегментируете аудио? Когда вы разделите его на 5 секунд, 10 секунд или 25 секунд? Спасибо, дорогой сэр!
2 ответа
Sphinxtrain выполняет выравнивание текста к аудио для обучения. Он пытается сопоставить фонемы с отдельными частями аудио. Когда звук длинный, сложнее найти хорошее соответствие, потому что существует слишком много вариантов и возможностей для ошибки, поэтому лучше придерживаться рекомендуемой длины высказывания.
Когда вы сегментируете аудио, которое вам нужно разделить на области молчания, не имеет значения, какова длина произнесения, более важно иметь небольшие области молчания в начале и в конце. Небольшая область тишины помогает тренеру найти контекст.
Как правило, чем длиннее сегмент, тем лучше. Чтобы сегментировать аудио, вам может понадобиться посмотреть на sox. У него есть команда обрезки, которая будет удобна для сегментации.