Esta página descreve como selecionar um perfil de dispositivo para o áudio criado pela conversão de texto em voz.
Pode otimizar a voz sintética produzida pela conversão de texto em voz para reprodução em diferentes tipos de hardware. Por exemplo, se a sua app for executada principalmente em dispositivos mais pequenos do tipo "vestível", pode criar voz sintética a partir da API Text-to-Speech otimizada especificamente para altifalantes mais pequenos.
Também pode aplicar vários perfis de dispositivos à mesma voz sintética. A API Text-to-Speech aplica perfis de dispositivos ao áudio na ordem fornecida no pedido ao ponto final text:synthesize
. Evite especificar o mesmo perfil mais do que uma vez, uma vez que pode ter resultados indesejáveis se aplicar o mesmo perfil várias vezes.
A utilização de perfis de áudio é opcional. Se optar por usar um (ou mais), a conversão de texto em voz aplica os perfis aos resultados de voz pós-síntese. Se optar por não usar um perfil de áudio, recebe os resultados de voz sem modificações pós-síntese.
Para ouvir a diferença entre o áudio gerado a partir de diferentes perfis, compare os dois clipes abaixo.
Exemplo 1. Áudio gerado com o perfil handset-class-device
Exemplo 2. Áudio gerado com o perfil telephony-class-application
Nota: cada perfil de áudio foi otimizado para um dispositivo específico através do ajuste de uma série de efeitos de áudio. No entanto, a marca e o modelo do dispositivo usado para otimizar o perfil podem não corresponder exatamente aos dispositivos de reprodução dos utilizadores. Pode ter de experimentar diferentes perfis para encontrar a melhor saída de som para a sua aplicação.
Perfis de áudio disponíveis
A tabela seguinte apresenta os IDs e exemplos dos perfis de dispositivos disponíveis para utilização pela API Text-to-Speech.
ID do perfil de áudio | Otimizado para |
---|---|
wearable-class-device |
Smartwatches e outros dispositivos de vestir, como o Apple Watch e o relógio Wear OS |
handset-class-device |
Smartphones, como o Google Pixel, o Samsung Galaxy e o Apple iPhone |
headphone-class-device |
Auriculares ou auscultadores para a reprodução de áudio, como os auscultadores Sennheiser |
small-bluetooth-speaker-class-device |
Altifalantes domésticos pequenos, como o Google Home Mini |
medium-bluetooth-speaker-class-device |
Altifalantes de casa inteligente, como o Google Home |
large-home-entertainment-class-device |
Sistemas de entretenimento doméstico ou smart TVs, como o Google Home Max ou a TV LG |
large-automotive-class-device |
Altifalantes do carro |
telephony-class-application |
Sistemas de Resposta de voz interativa (IVR) |
Especifique um perfil de áudio a usar
Para especificar um perfil de áudio a usar, defina o campo
effectsProfileId
para o pedido de conversão de texto em voz.
Protocolo
Para gerar um ficheiro de áudio, faça um pedido POST
e forneça o corpo do pedido adequado. O exemplo seguinte mostra um pedido POST
com curl
. O exemplo usa a CLI Google Cloud para obter um token de acesso para o pedido.
Para ver instruções sobre como instalar a CLI gcloud, consulte o artigo
Autentique-se na API Text-to-Speech.
O exemplo seguinte mostra como enviar um pedido para o ponto final text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Se o pedido for bem-sucedido, a API Text-to-Speech devolve o áudio sintetizado como dados codificados em base64 contidos na saída JSON. O resultado JSON
no ficheiro audio-profiles.txt
tem o seguinte aspeto:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Para descodificar os resultados da API Cloud Text-to-Speech como um ficheiro de áudio MP3, execute o seguinte comando a partir do mesmo diretório que o ficheiro audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API GoText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Java
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API JavaText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Node.js
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API Node.jsText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Python
Para saber como instalar e usar a biblioteca cliente para a API Text-to-Speech, consulte o artigo Bibliotecas cliente da API Text-to-Speech. Para mais informações, consulte a documentação de referência da API PythonText-to-Speech.
Para se autenticar na API Text-to-Speech, configure as Credenciais padrão da aplicação. Para mais informações, consulte o artigo Configure a autenticação para um ambiente de desenvolvimento local.
Idiomas adicionais
C#: Siga as instruções de configuração do C# na página das bibliotecas cliente e, em seguida, visite a documentação de referência de conversão de texto em voz para .NET.
PHP: Siga as instruções de configuração do PHP na página das bibliotecas cliente e, em seguida, visite a documentação de referência do Text-to-Speech para PHP.
Ruby: Siga as instruções de configuração do Ruby na página das bibliotecas cliente e, em seguida, visite a documentação de referência da conversão de texto em voz para Ruby.