Treinamento de modelo

Sugerimos encontrar e trabalhar com um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar cerca de 10 segundos de áudio com o ator de voz para usar como dados de treinamento. Você também precisa gravar a declaração de consentimento do ator de voz. Leva menos de alguns minutos para treinar e fornecer o modelo clonado. Não há suporte de SLA para bugs críticos em recursos pré-GA.

Etapa 1: criar dados de treinamento para clonagem

  1. Gravar a declaração de consentimento: para obedecer às diretrizes legais e éticas de clonagem de voz, grave a declaração de consentimento necessária no idioma apropriado (Eu sou o proprietário desta voz e concordo que o Google use-a para criar um modelo de voz sintética).
  2. Gravar o áudio inicial: use o microfone do computador para gravar 10 segundos de áudio. Não use ruídos de fundo durante a gravação.
  3. Armazenar arquivos de áudio: salve os arquivos de áudio gravados em um local designado do Cloud Storage.

Etapa 2: criar um modelo clonado

É possível criar um projeto de clonagem no console de conversão do Text-to-Speech.

  1. Navegue até a página Sintetizar no console de conversão do Text-to-Speech.

  2. Digite o texto que será sintetizado em fala e selecione o código do idioma de destino (apenas en-US é válido).

  3. Marque a caixa de seleção Voz personalizada e clique em Gerar chave.

  4. Preencha todos os campos obrigatórios na subtarefa que for aberta.

  5. Uma chave de clonagem de voz vai aparecer no formulário de sintetização:

    • Você pode salvar essa chave para uso futuro e pular o processo "Gerar chave"

  6. Ative a seção Configurações avançadas e digite 24000 no campo Taxa de amostragem (Hertz) e clique em Sintetizar.

No momento, só sintetizamos vozes clonadas a 24 kHz.

Você pode fazer o download ou tocar o áudio imediatamente para ouvir como ficou.