Treinamento de modelo

Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar cerca de 10 segundos de áudio com o ator de voz para usar como dados de treinamento. Você também precisa gravar a declaração de consentimento do ator de voz. Leva menos de alguns minutos para treinar e fornecer o modelo clonado. Não há suporte de SLA para bugs críticos em recursos pré-GA.

Etapa 1: criar dados de treinamento para clonagem

Gravar a declaração de consentimento: para obedecer às diretrizes legais e éticas de clonagem de voz, grave a declaração de consentimento necessária no idioma apropriado (Eu sou o proprietário desta voz e concordo que o Google use-a para criar um modelo de voz sintética).
Gravar o áudio inicial: use o microfone do computador para gravar 10 segundos de áudio. Não use ruídos de fundo durante a gravação.
Armazenar arquivos de áudio: salve os arquivos de áudio gravados em um local designado do Cloud Storage.

Etapa 2: criar um modelo clonado

É possível criar um projeto de clonagem no console de conversão do Text-to-Speech.

Navegue até a página Sintetizar no console de conversão do Text-to-Speech.
Digite o texto que será sintetizado em fala e selecione o código do idioma de destino (apenas en-US é válido).
Marque a caixa de seleção Voz personalizada e clique em Gerar chave.
Preencha todos os campos obrigatórios na subtarefa que for aberta.
Uma chave de clonagem de voz vai aparecer no formulário de sintetização:
- Você pode salvar essa chave para uso futuro e pular o processo "Gerar chave"
- Observação: não retemos sua chave. Qualquer pessoa com acesso ao seu projeto do Cloud pode usá-la para gerar fala sintética com sua voz clonada. Portanto, mantenha-a segura.
Ative a seção Configurações avançadas e digite 24000 no campo Taxa de amostragem (Hertz) e clique em Sintetizar.

No momento, só sintetizamos vozes clonadas a 24 kHz.

Você pode fazer o download ou tocar o áudio imediatamente para ouvir como ficou.