Documentação do Text-to-Speech

Voz personalizada

A API Cloud Text-to-Speech agora oferece vozes personalizadas. Esse recurso permite treinar um modelo de voz personalizada usando gravações de áudio de qualidade de estúdio para criar uma voz exclusiva. É possível usar sua voz personalizada para sintetizar o áudio usando a API Cloud Text-to-Speech.

Para implementar a Voz personalizada, entre em contato com um membro da equipe de vendas

Amostras de vozes personalizadas

Ouça exemplos de vozes personalizadas nos exemplos a seguir. O primeiro exemplo de áudio é a voz original. Em seguida, você pode ouvir dois exemplos de voz personalizados com base no original.

Feminina: voz original Masculina : voz original
Feminina: exemplo de voz personalizada nº 1 Masculina: exemplo de voz personalizada nº 1
Feminina: exemplo de voz personalizada nº 2 Masculina: exemplo de voz personalizada nº 2

Dados de áudio de treinamento fornecidos pelo usuário

A voz personalizada fornece um modelo de conversão de texto em voz (TTS, na sigla em inglês) que parece com o máximo de dados de áudio fornecidos. O Google enviará um script para as gravações de voz depois que seu caso de uso for aprovado. Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar áudio da qualidade do estúdio com seu ator de voz para usar como dados de treinamento. Se os dados de treinamento não forem aprovados na verificação interna do Google e na verificação de validação, talvez seja necessário gravar novamente ou reenviá-los após corrigir os problemas identificados.

Treinamento de modelo

O Google leva várias semanas para treinar e avaliar seu modelo de voz personalizada. Não há suporte de SLA para bugs críticos em recursos Beta.

Testes de avaliação e aceitação de usuários

O Google realiza uma rodada inicial da avaliação do modelo treinado. Após a aprovação dos nossos critérios internos de qualidade, enviaremos algumas amostras de áudio off-line registradas com o modelo personalizado. Você seguirá um processo de teste de aceitação de usuários para avaliar os resultados de áudio e assinar oficialmente o modelo.