Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar cerca de 10 segundos de áudio com o ator de voz para usar como dados de treinamento. Você também precisa gravar a declaração de consentimento do ator de voz. Leva menos de alguns minutos para treinar e fornecer o modelo clonado. Não há suporte de SLA para bugs críticos em recursos pré-GA.
Etapa 1: criar dados de treinamento para clonagem
- Gravar a declaração de consentimento: para obedecer às diretrizes legais e éticas de clonagem de voz, grave a declaração de consentimento necessária no idioma apropriado (Eu sou o proprietário desta voz e concordo que o Google use-a para criar um modelo de voz sintética).
- Gravar o áudio inicial: use o microfone do computador para gravar 10 segundos de áudio. Não use ruídos de fundo durante a gravação.
- Armazenar arquivos de áudio: salve os arquivos de áudio gravados em um local designado do Cloud Storage.
Etapa 2: criar um modelo clonado
É possível criar um projeto de clonagem no console de conversão do Text-to-Speech.
Navegue até a página Sintetizar no console de conversão do Text-to-Speech.
Digite o texto que será sintetizado em fala e selecione o código do idioma de destino (apenas
en-US
é válido).Marque a caixa de seleção Voz personalizada e clique em Gerar chave.
Preencha todos os campos obrigatórios na subtarefa que for aberta.
Uma chave de clonagem de voz vai aparecer no formulário de sintetização:
Você pode salvar essa chave para uso futuro e pular o processo "Gerar chave"
Ative a seção Configurações avançadas e digite 24000 no campo Taxa de amostragem (Hertz) e clique em Sintetizar.
No momento, só sintetizamos vozes clonadas a 24 kHz.
Você pode fazer o download ou tocar o áudio imediatamente para ouvir como ficou.