Мне нужен реалистичный 3D-аватар TTS/Viseme-Lip-sync/эмоций/жестов в реальном времени
Я использовал Haptek в прошлом, но сейчас его нет. Чтобы узнать, что я хочу сделать: ejTalk Cassandra
Идея состоит в том, чтобы отправить текстовую строку с текстом «текст для произнесения (с ssml): аватар-эмоция: аватар-жест». Я адаптируюсь к любой разметке. Движок ejTalk управляет всеми ASR/NLP/Dialog/и т.д. Я хочу ТОЛЬКО говорящую голову.
Это может быть браузер, подключаемая библиотека C++ или автономный сервер, но работающий в Windows 10/11.
Я программировал на C++, Javascript и т. д. на протяжении десятилетий, поэтому меня не так легко напугать.
Я изучаю движки Unreal и Unity, но они кажутся тяжелыми платформами и могут не поддаваться управлению текстовыми строками с другого сервера.
1 ответ
Это широкий вопрос. Вот некоторые ресурсы и примеры:
Сервисы для создания аватаров с интегрированной анимацией синхронизации губ («висемами»):
- Polywink - аватары на заказ
- Ready Player Me — аватары, созданные из фотографий, настраиваемые с помощью пользовательского интерфейса.
- Загрузите образцы моделей GLTF здесь: https://demo.readyplayer.me/de/avatar?quickStart
Примеры преобразования текста в речь с синхронизацией 3D-моделей:
- Демонстрация синхронизации губ Three.js
- Преобразование текста в речь Azure, сопоставленное с моделью Three.js
- Еще один пример преобразования текста в речь Azure, сопоставленный с моделью Three.js.
- API преобразования текста в речь Amazon, сопоставленный с моделями Babylon и Three.js.
- Предыдущие примеры изменены для использования Azure для преобразования текста в речь вместо AWS.
Примеры без 3D-моделирования, но показывающие, как создать чат (с использованием голоса или текста) с помощью ChatGPT, из которого вы можете сделать вывод, как интегрироваться с 3D-моделями, как в предыдущих примерах:
- QuiLLMan — полноценное приложение для чата, которое транскрибирует аудио в режиме реального времени с помощью Whisper, передает ответ из языковой модели и синтезирует этот ответ как естественно звучащую речь.
Если вы предпочитаете использовать нативную версию вместо использования веб-технологий, вы, вероятно, сможете сделать вывод из вышеизложенного, как загружать модели GLTF в вашу собственную среду (Unity, Unreal и т. д.) и как использовать API в демо-версиях из вашего собственного кода для достижения одинаковый.