Могу ли я получить фонемы синтезированного аудиофайла вместе с интервалами их появления в Android TTS?
Могу ли я получить фонемы синтезированного аудиофайла вместе с интервалами их появления в Android TTS?
Я делаю проект, в котором я делаю синхронизацию губ оживленного человеческого лица в дополненной реальности. Я обнаружил, что есть фонемы, соответствующие определенным формам рта. И позже, нашел технику, названную анимацией движения, для создания отсутствующей анимации между формами рта (анимация лица от одной формы рта до другой формы рта).
Я нашел CMUSphinx и попробовал его, но он не настолько точен, как должен, поэтому я ищу альтернативы, чтобы получить список фонем конкретного аудиофайла и время их появления.