Инструментарий для разработки системы TTS (преобразования текста в речь) для пользовательского языка?
Я хотел бы создать систему TTS для коренного американского языка (wayuunaiki). Язык написан латинским (западным) алфавитом. У меня также есть информация о фонетике (правила преобразования каждого слова в символы МФА).
Я планирую создать базу данных голосовых записей от родных людей. Затем я хочу как-то обучить эти данные, используя информацию об эквивалентности IPA для создания более точной речевой модели.
Я совершенно новичок в обработке естественного языка, поэтому мой вопрос... какие инструменты я могу использовать для выполнения того, что планирую?
Я слышал, что HTK и CMU Sphinx довольно хороши в распознавании речи. Понятия не имею о генерации речи. Также слышал о фестивале, но я читал, что он использует только предопределенные наиболее известные языки: английский, испанский и так далее.
Извините за ошибки при печати. Я все еще учу английский. Заранее спасибо!
2 ответа
Вы можете добавить новый язык в Фестивале, он специально разработан для упрощения создания нового языка. Для более подробной информации читайте книгу festvox:
Другой инструментарий, который стоит рассмотреть, - OpenMary, см. Также их документацию.
https://github.com/marytts/marytts/wiki/New-Language-Support
Это более современно и может быть проще для вас.
В любом случае вам придется потратить некоторое время и написать код для описания вашего языка. Обычно это около 300 строк кода. После этого вы можете записать базу данных TTS с одним спикером и запустить процесс построения голоса. Чем больше вы записываете, тем лучше будет результат.
Используйте фестивальный инструментарий для преобразования текста в речь (Советы: используйте операционную систему Linux)