Este guia de início rápido apresenta o Text-to-Speech. Neste guia de início rápido, você vai configurar o projeto e a autorização do Google Cloud Platform e, em seguida, fazer uma solicitação do Text-to-Speech para criar áudio de um texto.
Para saber mais sobre os conceitos básicos do Text-to-Speech, leia Princípios básicos do Text-to-Speech.
Antes de começar
-
Faça login na sua conta do Google.
Se você ainda não tiver uma, inscreva-se.
-
No Console do Google Cloud, na página do seletor de projetos, selecione ou crie um projeto do Google Cloud.
-
Verifique se o faturamento está ativado para seu projeto na nuvem. Saiba como confirmar se o faturamento está ativado para o projeto.
- Ative a API Cloud Text-to-Speech.
-
Configurar a autenticação:
-
No Console do Cloud, acesse a página Criar chave da conta de serviço.
Acessar página "Criar chave da conta de serviço" - Na lista Conta de serviço, selecione Nova conta de serviço.
- No campo Nome da conta de serviço, insira um nome.
- Não selecione um valor na lista Papel. Não é necessário ter um papel para acessar esse serviço.
- Clique em Criar. Uma nota aparecerá informando que esta conta de serviço não tem papel.
- Clique em Criar sem papel. O download de um arquivo JSON que contém sua chave é feito no seu computador.
-
-
Defina a variável de ambiente
GOOGLE_APPLICATION_CREDENTIALS
como o caminho do arquivo JSON que contém a chave da conta de serviço. Essa variável só se aplica à sessão de shell atual. Dessa maneira, se você abrir uma nova sessão, defina a variável novamente. - Instale e inicialize o SDK do Cloud..
Sintetizar áudio de texto
Converta texto em áudio fazendo uma solicitação HTTP POST para o endpoint
https://texttospeech.googleapis.com/v1/text:synthesize
. No
corpo do seu comando POST, especifique o tipo de voz que será sintetizado na
seção de configuração voice
. Especifique também o texto que será sintetizado no
campo text
da seção input
e, por fim, especifique o tipo de áudio que será criado
na seção audioConfig
.
Execute a solicitação REST abaixo na linha de comando para sintetizar o áudio do texto usando o Text-to-Speech. O comando usa o comando
gcloud auth application-default print-access-token
para recuperar um token de autorização da solicitação.Método HTTP e URL:
POST https://texttospeech.googleapis.com/v1/text:synthesize
Corpo JSON da solicitação:
{ "input":{ "text":"Android is a mobile operating system developed by Google, based on the Linux kernel and designed primarily for touchscreen mobile devices such as smartphones and tablets." }, "voice":{ "languageCode":"en-gb", "name":"en-GB-Standard-A", "ssmlGender":"FEMALE" }, "audioConfig":{ "audioEncoding":"MP3" } }
Para enviar a solicitação, expanda uma destas opções:
Você receberá uma resposta JSON semelhante a esta:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
A saída JSON para o comando REST contém o áudio sintetizado no formato de codificação em base64. Copie o conteúdo do campo
audioContent
para um novo arquivo chamadosynthesize-output-base64.txt
. O novo arquivo terá uma aparência semelhante à seguinte://NExAARqoIIAAhEuWAAAGNmBGMY4EBcxvABAXBPmPIAF//yAuh9Tn5CEap3/o ... VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV
Decodifique o conteúdo do arquivo
synthesize-output-base64.txt
em um novo arquivo chamadosynthesized-audio.mp3
. Para informações sobre a decodificação de base64, consulte Como decodificar conteúdo de áudio codificado em Base64.base64 synthesize-output-base64.txt --decode > synthesized-audio.mp3
Reproduza o conteúdo de
synthesized-audio.mp3
em um aplicativo de áudio ou em um dispositivo de áudio. Também é possível abrir osynthesized-audio.mp3
no navegador Chrome para reproduzir o áudio, navegando até a pasta que contém o arquivo, por exemplo,file://my_file_path/synthesized-audio.mp3
Limpeza
Para evitar cobranças desnecessárias do Google Cloud Platform, use o Console do Cloud para excluir o projeto se ele não for mais necessário.
A seguir
- Saiba mais sobre a Cloud Text-to-Speech lendo as noções básicas.
- Verifique a lista de vozes disponíveis que você pode usar para fala sintética.