Преобразование текста в речь Google Cloud (TTS) - не удается заставить работать фонемы

Я использую пример Google для реализации фонемы следующим образом:

<phoneme alphabet="ipa" ph="t&#x259;mei&#x325;&#x27E;ou&#x325;"> tomato </phoneme>

Я использую Postman для отправки POST-запросов к конечной точке https://texttospeech.googleapis.com/v1/text.

Я заметил, что если я изменяю слово "помидор", но сохраняю исходное значение для "ph", слово "помидор" все равно полностью возвращается для голосового звука. Я ожидал, что звук голоса вернет только звук "Кому".

<phoneme alphabet="ipa" ph="t&#x259;"> tomato </phoneme>

При отправке запроса POST в формате JSON через Postman я всегда избегаю кавычек, чтобы избежать ошибок синтаксического анализа JSON:

{
  "audioConfig":{
    "audioEncoding":"LINEAR16",
    "volumeGainDb":"16",
    "pitch": 0,
    "speakingRate": 1
  },
  "input":{
    "ssml":"<speak><phoneme alphabet=\"ipa\" ph=\"t&#x259;\"> tomato </phoneme></speak>" 
  },
  "voice":{
    "languageCode":"en-US",
    "name":"en-US-Wavenet-F",
    "ssmlGender":"FEMALE"
  }

}

Кто-нибудь знает, почему фонемы не работают?

Заранее спасибо.

2 ответа

Фонемы не поддерживались, когда вопрос задавался в 2020 году, но теперь они поддерживаются в 2021 году. Посмотрите этот ответ, чтобы найти некоторые подводные камни.

Google Cloud Speech-to-Text поддерживает только подмножество тегов языка разметки синтеза речи (SSML) и, к сожалению, в настоящее время не входит в их число.

Вы можете узнать, какие из них поддерживаются здесь

Другие вопросы по тегам