Perguntas frequentes

O recurso de voz personalizada oferece suporte para SSML?

  • O Voz personalizada suporta todos os recursos de SSML, exceto a ênfase (no roteiro) e a prosódia do tom (em breve).

Quão grande uma frase SSML pode ser?

  • Sugerimos evitar tags de frases SSML e nos permitir inferir a estrutura da frase. Se você precisar usar frases SSML, geraremos até 30 segundos de áudio por frase SSML.

  • Cada frase pode conter no máximo 480 fonemas. Divida frases mais longas com pontuação (por exemplo, pontos finais) conforme necessário.

Há diferenças de voz entre duas versões de um modelo de voz personalizada ?

  • É esperado que algumas alterações entre duas versões de um modelo personalizado de voz sejam necessárias à medida que nossa tecnologia evolui, mesmo que os modelos sejam treinados com os mesmos dados de áudio. Se você encontrar esse problema, envie algumas amostras para que possamos investigar.

Onde posso informar problemas ao Google?