Преобразование текста в речь Google Cloud (TTS) - не удается заставить работать фонемы
Я использую пример Google для реализации фонемы следующим образом:
<phoneme alphabet="ipa" ph="təmei̥ɾou̥"> tomato </phoneme>
Я использую Postman для отправки POST-запросов к конечной точке https://texttospeech.googleapis.com/v1/text.
Я заметил, что если я изменяю слово "помидор", но сохраняю исходное значение для "ph", слово "помидор" все равно полностью возвращается для голосового звука. Я ожидал, что звук голоса вернет только звук "Кому".
<phoneme alphabet="ipa" ph="tə"> tomato </phoneme>
При отправке запроса POST в формате JSON через Postman я всегда избегаю кавычек, чтобы избежать ошибок синтаксического анализа JSON:
{
"audioConfig":{
"audioEncoding":"LINEAR16",
"volumeGainDb":"16",
"pitch": 0,
"speakingRate": 1
},
"input":{
"ssml":"<speak><phoneme alphabet=\"ipa\" ph=\"tə\"> tomato </phoneme></speak>"
},
"voice":{
"languageCode":"en-US",
"name":"en-US-Wavenet-F",
"ssmlGender":"FEMALE"
}
}
Кто-нибудь знает, почему фонемы не работают?
Заранее спасибо.
2 ответа
Фонемы не поддерживались, когда вопрос задавался в 2020 году, но теперь они поддерживаются в 2021 году. Посмотрите этот ответ, чтобы найти некоторые подводные камни.
Google Cloud Speech-to-Text поддерживает только подмножество тегов языка разметки синтеза речи (SSML) и, к сожалению, в настоящее время не входит в их число.
Вы можете узнать, какие из них поддерживаются здесь