Можно воспроизводить аудиопоток (поток PCM 8000) из vxml или ccxml (Voximal)

Надеюсь, у тебя все хорошо. Мы использовали Voximal(Latest) со звездочкой 13 на Ubuntu(16.04.2 LTS).

Я пытаюсь вызвать свой веб-сервис java, который возвращает поток PCM 8000, этот поток, который мы генерируем с помощью Amazon Polly, затем я хочу воспроизвести тот же поток для пользователя по телефону, строго используя vxml.

Во-первых, я хочу знать, что можно воспроизводить поток PCM с использованием VXML2.1 или CCXML, я до сих пор много искал, но безуспешно.

это мой код vxml, просто дикая попытка:)

 <?xml version="1.0" encoding="UTF-8"?>
   <vxml version="2.1">
     <var name="serviceVS" expr="'http://localhost:57144/polly/v1'"/>
      <form>
<filled>
 <data name="url" srcexpr="serviceVS" method="post" namelist="file" 
  enctype="multipart/form-data"/>
  <assign name="urlToPlay" expr="url.url"/>

<log>
 urlToPlay =>
 <value expr="urlToPlay"/>
 </log>
  <audio expr ="urlToPlay"/>
 </filled>
  </form>
  </vxml>

Ниже мой код Java

@RequestMapping(value="/polly/v1", method = {RequestMethod.POST,RequestMethod.GET})
public ResponseEntity<InputStreamResource> pollyEndPoint(@RequestParam("voiceId") String voiceId,
        @RequestParam("text")String text,@RequestParam("outputFormat") String outputFormat){
    InputStream speechStream= null;
    InputStreamResource inputStreamResource=null;
    HttpHeaders headers=null;
    try{
        speechStream=quikWitService.getPollyTextToSpeech(voiceId,text,outputFormat);
        inputStreamResource= new InputStreamResource(speechStream);
        headers = new HttpHeaders();
        headers.add("Content-Type",QuikWitUtils.getAudioFormatContentType(outputFormat));

    }
    catch(Exception e){
        logger.error(e);
        logger.debug(e.getStackTrace());
    }
    return new ResponseEntity<>(inputStreamResource,headers, HttpStatus.OK);

}

Если кто-то может указать мне на какие-либо статьи или дополнительную информацию, я буду чувствовать себя обязанным.

Спасибо

1 ответ

Polly интегрирован с Voximal (вам нужно только установить правильную конфигурацию в разделе TTS/prompt). Voximal использует командную строку "aws" для генерации локального аудиосодержимого, вы можете получить доступ ко всем возможностям Amazon TextToSpeech, но время отклика следует уменьшить, используя другой метод (~1 с задержки, но Voximal использует кеш, который может замаскировать этот эффект). Мы улучшим интеграцию Polly в следующих выпусках Voximal.

Другой способ - создать собственную интеграцию Polly с нашим API TTS / HTTP: https://wiki.voximal.com/doku.php?id=installation_guide:tts_http:start

Для каждого раздела Voximal будет генерировать HTTP-запросы, если текстовое содержимое отсутствует в кэше.

Другие вопросы по тегам