Динамический Деформация Времени с выходом набора инструментов обработки речевого сигнала (SPTK)
Я учусь на ИТ-специалиста и получил задание по динамической деформации времени (DTW) с использованием набора инструментов для обработки речевого сигнала (SPTK), сравнения некоторых слов, произнесенных двумя спикерами, и нахождения сходства. Мне удалось заставить SPTK работать и все, собрать 8 человек (4 женщины, 4 мужчины), которые записали по 8 слов для меня (одинаковые слова для каждого человека) и сохранили их в виде файлов с расширением.wav.
Мои файлы.wav: RIFF (little-endian) данные, аудио WAVE, моно 16000 Гц. Я перевел каждый файл.wav в файлы данных.short. Я перевел каждый файл.short в файл.mcep с этой строкой кода:
x2x +sf < source_maleA.short | frame -l 400 -p 80 | window -l 400 -L 512 | mcep -l 512 -m 20 -a 0.42 > source_maleA.mcep
После этого я пошел сравнивать файлы.mcep с этой строкой кода:
dtw -m 24 target_maleB.mcep < source_maleA.mcep > source_maleA_target_maleB.dtw
Вывод этой командной строки должен быть числовым значением (вероятно, значением с плавающей запятой / double / int) или несколькими значениями. Проблема в том, что я не уверен, как открыть эти файлы.dtw, и в документации, которую я получаю, нет никакой хорошей информации об этом. Когда я пытаюсь открыть его в любом редакторе или кошку в терминале, я получаю несколько странных букв в качестве вывода [рисунок 1].
Однако в документации говорится, что с помощью параметра -s [Score] я могу получить оценку процесса DTW. Итак, я попробовал это с этой командной строкой:
dtw -m 24 -s Scorefile target_maleB.mcep < source_maleA.mcep > source_maleA_target_maleB.dtw
Я получаю значение, но в странном формате.
Я искал в Интернете и во многих документах о файле.dtw и не смог ничего найти. Я пытался преобразовать результат в другой формат, но безуспешно. Пытался связаться с моим наставником по этому поводу, но ответов пока нет, и это уже давно.
Кто-нибудь может дать мне какое-либо предложение о том, что делать или что-нибудь еще? Документация может быть найдена на этом сайте: http://sp-tk.sourceforge.net/ (извините за отсутствие ссылки, но все еще недостаточно репутации - удаляю, если придется), но я не думаю, что это необходимо во многом, так как я думаю, что я в значительной степени понимал процесс DTW и думаю, что я сделал это хорошо, просто результат вызывает у меня проблемы.
Заранее спасибо,
Марко.
1 ответ
Файл партитуры находится в формате float, поэтому вам нужно преобразовать его в asci с помощью команды x2x из SPTK:
x2x +fa scorefile.bin> scorefile.txt