Мне нужен реалистичный 3D-аватар TTS/Viseme-Lip-sync/эмоций/жестов в реальном времени

Я использовал Haptek в прошлом, но сейчас его нет. Чтобы узнать, что я хочу сделать: ejTalk Cassandra

Идея состоит в том, чтобы отправить текстовую строку с текстом «текст для произнесения (с ssml): аватар-эмоция: аватар-жест». Я адаптируюсь к любой разметке. Движок ejTalk управляет всеми ASR/NLP/Dialog/и т.д. Я хочу ТОЛЬКО говорящую голову.

Это может быть браузер, подключаемая библиотека C++ или автономный сервер, но работающий в Windows 10/11.

Я программировал на C++, Javascript и т. д. на протяжении десятилетий, поэтому меня не так легко напугать.

Я изучаю движки Unreal и Unity, но они кажутся тяжелыми платформами и могут не поддаваться управлению текстовыми строками с другого сервера.

1 ответ

Это широкий вопрос. Вот некоторые ресурсы и примеры:

Сервисы для создания аватаров с интегрированной анимацией синхронизации губ («висемами»):

Примеры преобразования текста в речь с синхронизацией 3D-моделей:

Примеры без 3D-моделирования, но показывающие, как создать чат (с использованием голоса или текста) с помощью ChatGPT, из которого вы можете сделать вывод, как интегрироваться с 3D-моделями, как в предыдущих примерах:

  • QuiLLMan — полноценное приложение для чата, которое транскрибирует аудио в режиме реального времени с помощью Whisper, передает ответ из языковой модели и синтезирует этот ответ как естественно звучащую речь.

Если вы предпочитаете использовать нативную версию вместо использования веб-технологий, вы, вероятно, сможете сделать вывод из вышеизложенного, как загружать модели GLTF в вашу собственную среду (Unity, Unreal и т. д.) и как использовать API в демо-версиях из вашего собственного кода для достижения одинаковый.

Другие вопросы по тегам