Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar cerca de 10 segundos de áudio com o ator de voz para usar como dados de treinamento. Você também precisa gravar a declaração de consentimento do ator de voz. Leva menos de alguns minutos para treinar e fornecer o modelo clonado. Não há suporte de SLA para bugs críticos em recursos pré-GA.
Etapa 1: criar dados de treinamento para clonagem
- Gravar a declaração de consentimento: para obedecer às diretrizes legais e éticas de clonagem de voz, grave a declaração de consentimento necessária como um arquivo WAV mono, com codificação LINEAR16 e uma taxa de amostragem de 24 kHz, no idioma apropriado. (Eu sou o proprietário desta voz e concordo que o Google use-a para criar um modelo de voz sintética.)
- Gravar o áudio inicial: use o microfone do computador para gravar 10 segundos de áudio como um arquivo WAV mono codificado em LINEAR16 com uma taxa de amostragem de 24 kHz. Não use ruídos de fundo durante a gravação.
- Armazenar arquivos de áudio: salve os arquivos de áudio gravados em um local designado do Cloud Storage.
Etapa 2: criar um modelo clonado
É possível criar um projeto de clonagem no console de conversão do Text-to-Speech.
Navegue até a página Sintetizar no console de conversão do Text-to-Speech.
Digite o texto que será sintetizado em fala e selecione o código do idioma de destino (apenas
en-US
é válido).Marque a caixa de seleção Voz personalizada e clique em Gerar chave.
Preencha todos os campos obrigatórios na subtarefa que for aberta.
Uma chave de clonagem de voz vai aparecer no formulário de sintetização:
Você pode salvar essa chave para uso futuro e pular o processo "Gerar chave"
Ative a seção Configurações avançadas e digite 24000 no campo Taxa de amostragem (Hertz) e clique em Sintetizar.
No momento, só sintetizamos vozes clonadas a 24 kHz.
Você pode fazer o download ou tocar o áudio imediatamente para ouvir como ficou.