A conversão de texto em voz permite-lhe converter palavras e frases em dados de áudio codificados em base64 de voz humana natural. Em seguida, pode converter os dados de áudio num ficheiro de áudio reproduzível, como um MP3, descodificando os dados base64. A API Text-to-Speech aceita a entrada como texto simples ou Speech Synthesis Markup Language (SSML).
Este documento descreve como criar um ficheiro de áudio a partir de texto ou entrada SSML usando a conversão de texto em voz. Também pode rever o artigo Noções básicas de conversão de texto em voz se não estiver familiarizado com conceitos como síntese de voz ou SSML.
Estes exemplos requerem que tenha instalado e inicializado a CLI Google Cloud. Para informações sobre como configurar a CLI gcloud, consulte o artigo Autentique-se no TTS.
Converter texto em áudio de voz sintética
Os seguintes exemplos de código demonstram como converter uma string em dados de áudio.
Pode configurar a saída da síntese de voz de várias formas, incluindo selecionar uma voz única ou modular a saída em termos de tom, volume, velocidade de voz e taxa de amostragem.
Protocolo
Consulte o ponto final da API text:synthesize
para ver os detalhes completos.
Para sintetizar áudio a partir de texto, faça um pedido HTTP POST ao ponto final text:synthesize
. No corpo do seu pedido POST,
especifique o tipo de voz a sintetizar na secção de configuração voice
,
especifique o texto a sintetizar no campo text
da secção input
e
especifique o tipo de áudio a criar na secção audioConfig
.
O seguinte fragmento do código envia um pedido de síntese para o ponto final text:synthesize
e guarda os resultados num ficheiro com o nome synthesize-text.txt
. Substitua PROJECT_ID
pelo ID do seu projeto.
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "x-goog-user-project: <var>PROJECT_ID</var>" \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'Android is a mobile operating system developed by Google, based on the Linux kernel and designed primarily for touchscreen mobile devices such as smartphones and tablets.' }, 'voice':{ 'languageCode':'en-gb', 'name':'en-GB-Standard-A', 'ssmlGender':'FEMALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-text.txt
A API Text-to-Speech devolve o áudio sintetizado como dados codificados em base64 contidos na saída JSON. A saída JSON no ficheiro synthesize-text.txt
é semelhante ao seguinte fragmento do código.
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para descodificar os resultados da API Text-to-Speech como um ficheiro de áudio MP3, execute o comando seguinte a partir do mesmo diretório que o ficheiro synthesize-text.txt
.
cat synthesize-text.txt | grep 'audioContent' | \ sed 's|audioContent| |' | tr -d '\n ":{},' > tmp.txt && \ base64 tmp.txt --decode > synthesize-text-audio.mp3 && \ rm tmp.txt
Go
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API GoText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API JavaText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API Node.jsText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API PythonText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência de conversão de texto em voz para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Text-to-Speech para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência da conversão de texto em voz para Ruby.
Converta SSML em áudio de voz sintética
A utilização de SSML no seu pedido de síntese de áudio pode produzir áudio mais semelhante à fala humana natural. Especificamente, a SSML permite-lhe ter um controlo mais preciso sobre a forma como a saída de áudio representa as pausas na fala ou como o áudio pronuncia datas, horas, acrónimos e abreviaturas.
Para mais detalhes sobre os elementos SSML suportados pela API Text-to-Speech, consulte a referência SSML.
Protocolo
Consulte o ponto final da API text:synthesize
para ver os detalhes completos.
Para sintetizar áudio a partir de SSML, faça um pedido HTTP POST ao ponto final text:synthesize
. No corpo do pedido POST, especifique o tipo de voz a sintetizar na secção voice
de configuração, especifique o SSML a sintetizar no campo ssml
da secção input
e especifique o tipo de áudio a criar na secção audioConfig
.
O seguinte fragmento do código envia um pedido de síntese para o ponto final text:synthesize
e guarda os resultados num ficheiro com o nome synthesize-ssml.txt
. Substitua PROJECT_ID
pelo ID do seu projeto.
curl -H "Authorization: Bearer $(gcloud auth print-access-token)" \ -H "x-goog-user-project: <var>PROJECT_ID</var>" \ -H "Content-Type: application/json; charset=utf-8" --data "{ 'input':{ 'ssml':'<speak>The <say-as interpret-as=\"characters\">SSML</say-as> standard is defined by the <sub alias=\"World Wide Web Consortium\">W3C</sub>.</speak>' }, 'voice':{ 'languageCode':'en-us', 'name':'en-US-Standard-B', 'ssmlGender':'MALE' }, 'audioConfig':{ 'audioEncoding':'MP3' } }" "https://texttospeech.googleapis.com/v1/text:synthesize" > synthesize-ssml.txt
A API Text-to-Speech devolve o áudio sintetizado como dados codificados em base64 contidos na saída JSON. A saída JSON no ficheiro synthesize-ssml.txt
é semelhante ao seguinte fragmento do código.
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para descodificar os resultados da API Text-to-Speech como um ficheiro de áudio MP3, execute o comando seguinte a partir do mesmo diretório que o ficheiro synthesize-ssml.txt
.
cat synthesize-ssml.txt | grep 'audioContent' | \ sed 's|audioContent| |' | tr -d '\n ":{},' > tmp.txt && \ base64 tmp.txt --decode > synthesize-ssml-audio.mp3 && \ rm tmp.txt
Go
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API GoText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API JavaText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API Node.jsText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API PythonText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência de conversão de texto em voz para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Text-to-Speech para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência da conversão de texto em voz para Ruby.