Princípios básicos sobre a voz personalizada

Visão geral

A API Cloud Text-to-Speech agora oferece voz personalizada. Esse recurso permite treinar um modelo de voz personalizada usando gravações de áudio de qualidade de estúdio para criar uma voz exclusiva. É possível usar sua voz personalizada para sintetizar o áudio usando a API Cloud Text-to-Speech.

Dados de áudio de treinamento fornecidos pelo usuário

A voz personalizada fornece um modelo de conversão de texto em voz (TTS, na sigla em inglês) que parece com o máximo de dados de áudio fornecidos. O Google enviará um script para as gravações de voz depois que seu caso de uso for aprovado. Recomendamos selecionar e contratar um ator de voz que represente a voz personalizada que você está procurando. É necessário gravar áudio de qualidade de estúdio com seu ator de voz para usar como dados de treinamento. Consulte a página de requisitos de dados de treinamento para mais informações. Se os dados de treinamento não forem aprovados nas verificações internas de qualidade do Google, talvez seja necessário gravar novamente ou reenviá-los depois de corrigir os problemas identificados.

Treinamento de modelo

O Google leva várias semanas para treinar seu modelo de voz personalizado.

Deployment

Após o treinamento, o Google implantará o modelo de voz personalizado nos projetos que você escolher.

A seguir