Могу ли я получить фонемы синтезированного аудиофайла вместе с интервалами их появления в Android TTS?

Могу ли я получить фонемы синтезированного аудиофайла вместе с интервалами их появления в Android TTS?

Я делаю проект, в котором я делаю синхронизацию губ оживленного человеческого лица в дополненной реальности. Я обнаружил, что есть фонемы, соответствующие определенным формам рта. И позже, нашел технику, названную анимацией движения, для создания отсутствующей анимации между формами рта (анимация лица от одной формы рта до другой формы рта).

Я нашел CMUSphinx и попробовал его, но он не настолько точен, как должен, поэтому я ищу альтернативы, чтобы получить список фонем конкретного аудиофайла и время их появления.

0 ответов

Другие вопросы по тегам