Зачем вам нужно сегментировать аудио по 5-30 секунд каждый для построения акустической модели?

Question

Зачем вам нужно сегментировать аудио по 5-30 секунд каждый для построения акустической модели?

Sphinx4 требует, чтобы звук в акустической модели был сегментирован по 5-30 секунд каждый. Зачем? А как вы сегментируете аудио? Когда вы разделите его на 5 секунд, 10 секунд или 25 секунд? Спасибо, дорогой сэр!

2

speech-recognition cmusphinx acoustics

Источник

user4911255 02 сен '15 в 14:24

2 ответа

Решение

Как правило, чем длиннее сегмент, тем лучше. Чтобы сегментировать аудио, вам может понадобиться посмотреть на sox. У него есть команда обрезки, которая будет удобна для сегментации.

0

Источник

user4253485 02 сен '15 в 23:39

Другие вопросы по тегам speech-recognition cmusphinx acoustics

user432021 03 сен '15 в 06:29 2015-09-03 06:29 · Accepted Answer · 2015-09-03 06:29

Sphinxtrain выполняет выравнивание текста к аудио для обучения. Он пытается сопоставить фонемы с отдельными частями аудио. Когда звук длинный, сложнее найти хорошее соответствие, потому что существует слишком много вариантов и возможностей для ошибки, поэтому лучше придерживаться рекомендуемой длины высказывания.

Когда вы сегментируете аудио, которое вам нужно разделить на области молчания, не имеет значения, какова длина произнесения, более важно иметь небольшие области молчания в начале и в конце. Небольшая область тишины помогает тренеру найти контекст.