Esta página foi traduzida pela API Cloud Translation.

Noções básicas do Cloud Text-to-Speech

A conversão de texto em voz permite aos programadores criar voz humana sintética com um som natural como áudio reproduzível. Pode usar os ficheiros de dados de áudio que criar com a conversão de texto em voz para otimizar as suas aplicações ou aumentar o conteúdo multimédia, como vídeos ou gravações de áudio (em conformidade com os Termos de Utilização da Google Cloud Platform, incluindo a conformidade com todas as leis aplicáveis).

A conversão de texto em voz converte texto ou entrada de linguagem de marcação de síntese de voz (SSML) em dados de áudio, como MP3 ou LINEAR16 (a codificação usada em ficheiros WAV).

Este documento é um guia para os conceitos fundamentais da utilização da funcionalidade Text-to-Speech. Antes de explorar a API propriamente dita, reveja os inícios rápidos.

Exemplo básico

A conversão de texto em voz é ideal para qualquer aplicação que reproduza áudio de voz humana para os utilizadores. Permite-lhe converter strings, palavras e frases arbitrárias no som de uma pessoa a dizer as mesmas coisas.

Imagine que tem uma app de assistente de voz que fornece feedback em linguagem natural aos seus utilizadores como ficheiros de áudio reproduzíveis. A sua app pode realizar uma ação e, em seguida, fornecer voz humana como feedback ao utilizador.

Por exemplo, a sua app pode querer comunicar que adicionou com êxito um evento ao calendário do utilizador. A sua app cria uma string de resposta para comunicar o êxito ao utilizador, algo como "Adicionei o evento ao seu calendário".

Com a síntese de voz, pode converter essa string de resposta em voz humana real para reproduzir para o utilizador, semelhante ao exemplo fornecido abaixo.

Exemplo 1. Ficheiro de áudio gerado a partir da conversão de texto em voz

Para criar um ficheiro de áudio como o do exemplo 1, envia um pedido ao serviço de conversão de texto em voz, como o seguinte fragmento do código.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Síntese de voz

O processo de traduzir a entrada de texto em dados de áudio chama-se síntese e o resultado da síntese chama-se voz sintética. A conversão de texto em voz aceita dois tipos de entrada: texto simples ou dados formatados em SSML (descritos abaixo). Para criar um novo ficheiro de áudio, chama o ponto final synthesize da API.

O processo de síntese de voz gera dados de áudio não processados como uma string codificada em Base64. Tem de descodificar a string codificada em base64 num ficheiro de áudio antes de uma aplicação o poder reproduzir. A maioria das plataformas e sistemas operativos tem ferramentas para descodificar texto base64 em ficheiros multimédia reproduzíveis.

Para saber mais sobre a síntese, reveja os inícios rápidos ou a página Criar ficheiros de áudio de voz.

Vozes

A conversão de texto em voz cria dados de áudio brutos de voz humana natural. Ou seja, cria áudio que soa como uma pessoa a falar. Quando envia um pedido de síntese para o Text-to-Speech, tem de especificar uma voz que "fale" as palavras.

A conversão de texto em voz tem uma vasta seleção de vozes personalizadas disponíveis para utilização. As vozes diferem por idioma, género e sotaque (para alguns idiomas). Por exemplo, pode criar áudio que imita o som de uma oradora inglesa com sotaque britânico, como no exemplo 1 acima. Também pode converter o mesmo texto numa voz diferente, por exemplo, um falante de inglês com sotaque australiano.

Exemplo 2. Ficheiro de áudio gerado com o altifalante en-AU

Para ver a lista completa das vozes disponíveis, consulte o artigo Vozes suportadas.

Outras definições de saída de áudio

Além da voz, também pode configurar outros aspetos da saída de dados de áudio criada pela síntese de voz. A conversão de texto em voz permite configurar a velocidade de fala, o tom, o volume e a taxa de amostragem em Hertz.

Reveja a referência AudioConfig para mais informações.

Compatibilidade com a linguagem de marcação de síntese de voz (SSML)

Pode melhorar a voz sintética produzida pela conversão de texto em voz ao marcar o texto com a Linguagem de marcação de síntese de voz (SSML). A SSML permite-lhe inserir pausas, pronúncias de acrónimos ou outros detalhes adicionais nos dados de áudio criados pela conversão de texto em voz. A conversão de texto em voz suporta um subconjunto dos elementos SSML disponíveis.

Por exemplo, pode garantir que a voz sintética pronuncia corretamente os números ordinais fornecendo texto para voz com entrada SSML que marca os números ordinais como tal.

Exemplo 5. Ficheiro de áudio gerado a partir de entrada de texto simples

Exemplo 6. Ficheiro de áudio gerado a partir de entrada SSML

Para saber como sintetizar a fala a partir de SSML, consulte o artigo Criar ficheiros de áudio de voz