Инструментарий для разработки системы TTS (преобразования текста в речь) для пользовательского языка?

Question

Инструментарий для разработки системы TTS (преобразования текста в речь) для пользовательского языка?

Я хотел бы создать систему TTS для коренного американского языка (wayuunaiki). Язык написан латинским (западным) алфавитом. У меня также есть информация о фонетике (правила преобразования каждого слова в символы МФА).

Я планирую создать базу данных голосовых записей от родных людей. Затем я хочу как-то обучить эти данные, используя информацию об эквивалентности IPA для создания более точной речевой модели.

Я совершенно новичок в обработке естественного языка, поэтому мой вопрос... какие инструменты я могу использовать для выполнения того, что планирую?

Я слышал, что HTK и CMU Sphinx довольно хороши в распознавании речи. Понятия не имею о генерации речи. Также слышал о фестивале, но я читал, что он использует только предопределенные наиболее известные языки: английский, испанский и так далее.

Извините за ошибки при печати. Я все еще учу английский. Заранее спасибо!

2

nlp text-to-speech cmusphinx htk festival

Источник

user2826297 26 мар '14 в 14:11

2 ответа

Решение

Используйте фестивальный инструментарий для преобразования текста в речь (Советы: используйте операционную систему Linux)

0

Источник

user1717602 21 июл '16 в 10:31

Другие вопросы по тегам nlp text-to-speech cmusphinx htk festival

user432021 26 мар '14 в 17:31 2014-03-26 17:31 · Accepted Answer · 2014-03-26 17:31

Вы можете добавить новый язык в Фестивале, он специально разработан для упрощения создания нового языка. Для более подробной информации читайте книгу festvox:

http://festvox.org/bsv/

Другой инструментарий, который стоит рассмотреть, - OpenMary, см. Также их документацию.

https://github.com/marytts/marytts/wiki/New-Language-Support

Это более современно и может быть проще для вас.

В любом случае вам придется потратить некоторое время и написать код для описания вашего языка. Обычно это около 300 строк кода. После этого вы можете записать базу данных TTS с одним спикером и запустить процесс построения голоса. Чем больше вы записываете, тем лучше будет результат.