Как извлечь метки из сигналов для MBROLA?

Моя цель - создать новую дифонную базу данных MBROLA для нового языка, и я сталкиваюсь с проблемой создания контуров основного тона в соответствии с форматом базы данных.

Я пытаюсь использовать pm в speech_tools, но программа lpc_analysis не может быть найдена после того, как я загружаю speech_tools-2.4-release.tar.gz с http://www.cstr.ed.ac.uk/downloads/festival/2.4/, скомпилируйте и выполните следующую команду в папке speech_tools/bin:

./pm -f./aa.wav aa

сообщение об ошибке:

делать: ch_wave ./aa.wav -o .raw -тип raw

делать: lpc_analysis ./aa.wav -o _slpc.esps -тип esps -r _res.nist -rtype nist -shift 0,005 -длина 0,005 -окночный прямоугольник

Не могу выполнить "lpc_analysis": нет такого файла или каталога в строке./pm 279.


Этот вопрос о фестивале программного обеспечения для синтеза речи, маркировке основного тона, алгоритме определения основного тона и LPC-анализе в пакете speech_tools.

Может кто-нибудь сказать мне, где найти пропущенный lpc_analysis?

Update1:

Как использовать программу Pitchmark, которая является частью Edinburgh Speech Tools, для автоматического завершения работы? или я могу использовать программу pda (алгоритм определения высоты тона) в speech_tools для выполнения работы?

Update2:

Я нашел этот вопрос, Как получить или сохранить список высоты тона в praat с помощью сценариев, который может экспортировать значения тона в praat с помощью сценариев, но возникла новая проблема, как использовать сценарий praat для автоматического экспорта значений "Pitch list" для все файлы в папке? И я обнаружил, что https://github.com/YoeriNijs/PraatPitch может выполнить некоторую работу, но я действительно не знаю, как изменить его, чтобы экспортировать значения "списка высот".

Update3:

Что означает переменная halfseg, которая определена в struct DiphoneInfo? Эта структура определена в diphone_info.h, которая взята с https://github.com/numediart/MBROLA.

// Structure of the diphone database (as stored in memory) typedef struct { PhonemeCode left; // Name of the diphone PhonemeCode right; // Name of the diphone int32 pos_wave; // position in SPEECH_FILE int16 halfseg; // position of center of diphone int32 pos_pm; // index in PITCHMARK_FILE uint8 nb_frame; // Number of pitch markers } DiphoneInfo;

Большое спасибо.

0 ответов

Другие вопросы по тегам