Criar um modelo de voz personalizado para seus aplicativos de voz

É possível criar seus próprios modelos de voz personalizados na interface do Text-to-Speech.

Pré-requisitos

Ativar a API Text-to-Speech.
Grave o áudio de acordo com os requisitos de dados de treinamento.
Criar um bucket do Cloud Storage.
Faça upload dos arquivos de áudio para o novo bucket no formato especificado pelos Requisitos de dados de treinamento (0001.wav, 0002.wav... 0200.wav etc).

Treinar um novo modelo de voz personalizado

Abra a guia Voz personalizada na interface do Text-to-Speech.
Clique em Criar na parte de cima da tela.
Dê um nome ao modelo de voz.
Especifique o idioma no menu suspenso de idiomas compatíveis.
Selecione o arquivo CSV adequado na configuração do bucket na etapa 4 dos pré-requisitos.
Faça upload de uma declaração de consentimento da voz de locutor. Exemplo: "Eu sou o proprietário desta voz e concordo que o Google use-a para criar um modelo de voz sintética".
Clique em Criar para iniciar a criação do modelo. A criação do modelo pode levar até três dias.
Para ver o status do job de treinamento, veja as notificações do console no cabeçalho de navegação no canto superior direito.

A seguir

Quando o treinamento de modelo terminar, os arquivos de áudio de saída de amostra estarão disponíveis no console. É possível usar esses arquivos para fazer uma avaliação inicial da qualidade do modelo. Se ele atender aos seus requisitos, entre em contato com sua equipe de vendas para receber assistência na implantação do modelo. A implantação leva de duas a três semanas, por isso recomendamos uma avaliação rápida e comunicação antecipada.