Нужна хорошая модель преобразования текста в речь с открытым исходным кодом

Я попробовал пару разных веб-сайтов и библиотек. Также нашел эту тему 3,5 года назад - https://ai.stackexchange.com/questions/11220/what-are-the-current-open-source-text-to-audio-libraries .

Похоже, что за последние пару лет никто ничего не публиковал, и большинство решений действительно не очень хороши. Даже Amazon звучит как какой-то странный робот.

Один из лучших, которые я пробовал, — Coqui, но их лучшие модели никогда не публиковались на GitHub. Так что TTS на их сайте звучит идеально, но за это придется платить.

Кроме того, ElevenLabs великолепна, но у нее нет открытого исходного кода.

Я не могу поверить, что не существует опубликованных моделей, которые бы хорошо звучали. Мне это нужно для генерации огромного количества текста, поэтому платить за подписку будет очень дорого. Все они берут около 5 долларов за 20–40 минут выступления, и для меня это звучит слишком дорого.

Итак, не могли бы вы порекомендовать что-нибудь, что я могу использовать бесплатно? Желательно с открытым исходным кодом, но не обязательно. Спасибо.

0 ответов

Другие вопросы по тегам