Visão geral da voz personalizada (Beta)

A API Cloud Text-to-Speech agora oferece voz personalizada (Beta). Esse recurso permite treinar um modelo de voz personalizada usando gravações de áudio de qualidade de estúdio para criar uma voz exclusiva. É possível usar sua voz personalizada para sintetizar o áudio usando a API Cloud Text-to-Speech. Atualmente, há suporte apenas para inglês americano (en-US).

Para solicitar acesso ao recurso de voz personalizada, preencha este formulário.

Dados de áudio de treinamento fornecidos pelo usuário

A voz personalizada fornece um modelo de conversão de texto em voz (TTS, na sigla em inglês) que parece com o máximo de dados de áudio fornecidos. O Google enviará um script para as gravações de voz depois que seu caso de uso for aprovado. Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar áudio da qualidade do estúdio com seu ator de voz para usar como dados de treinamento. Se os dados de treinamento não forem aprovados na verificação interna do Google e na verificação de validação, talvez seja necessário gravar novamente ou reenviá-los após corrigir os problemas identificados.

Treinamento de modelo

O Google leva várias semanas para treinar e avaliar seu modelo de voz personalizada. Não há suporte de SLA para bugs críticos em recursos Beta.

Testes de avaliação e aceitação de usuários

O Google realiza uma rodada inicial da avaliação do modelo treinado. Após a aprovação dos nossos critérios internos de qualidade, enviaremos algumas amostras de áudio off-line registradas com o modelo personalizado. Você seguirá um processo de teste de aceitação de usuários para avaliar os resultados de áudio e assinar oficialmente o modelo.