Можно ли расшифровать вызов Twilio "как вы говорите"?

Кто-нибудь знает, возможно ли в Twilio создавать несколько аудиозаписей во время разговора на основе своего рода звукового флага или шаблона, например, тишины. Чтобы вы могли запустить обратный вызов в конце каждой части речи, чтобы генерировать текст во время вызова.

поблагодарить...

2 ответа

Евангелист Твилио здесь.

Итак, вы можете использовать timeout атрибут на <Record> глагол, чтобы получить короткие "всплески" разговорного текста, но это может означать, что вы перерывали время, пока звонящий произносит слово. Таким образом, вы получите только половину этого! Это может затруднить расшифровку того, что говорится, и я бы лично не использовал этот подход.

Вы можете закончить запись нажатием клавиши (тон DTMF) с помощью finishOnKey атрибут, который может помочь вашим потребностям.

В настоящее время вы не можете получить транскрипцию в реальном времени или почти в реальном времени. Вы получите транскрипцию очень быстро, но мы поддерживаем только тайм-аут и нажатия клавиш для завершения записи и начала транскрипции.

Надеюсь это поможет!

Чтобы получить живую транскрипцию с помощью Twilio, вам необходимо использовать стороннюю программу преобразования речи в текст с Twilio Media Streams , которая также поддерживает потоковую/бесконечную речь в распознавание текста, например Google Cloud Speech To Text. К сожалению, я не думаю, что существует родной глагол или действие Twilio, которое преобразует живую речь в текст/живую транскрипцию. Возможно, вы могли бы запустить что-то на iOS, но я думаю, что иметь внутренний сервер, который будет обрабатывать эту задачу, вероятно, будет лучше и более масштабируемым в будущем.

На высоком уровне вам необходимо сделать следующее:

  • Создайте конечную точку WebSocket для приема медиапотоков Twilio для входящих полезных данных аудиобайтов. Эти полезные данные представляют собой кодировку Base 64 речи по телефону.
  • Отправьте медиапоток стороннему поставщику текстовых сообщений, например Google Cloud.
  • Опубликуйте результаты транскрипции конечному пользователю (например, опрос через API или, в идеале, через соединение в реальном времени, например, через другой WebSocket).

Сами Twilio создали несколько разных руководств о том, как это сделать:

Я потратил некоторое время на ознакомление с этими руководствами и сделал аналогичное руководство по транскрипции на Java с использованием платформы Dropwizard (написанное мной).

Эти подходы будут работать для проверки концепции, но не охватывают области, связанные с безопасностью или масштабированием обработки аудиопотока.

Другие вопросы по тегам