Questa pagina descrive come selezionare un profilo del dispositivo per l'audio creato dalla sintesi vocale.
Puoi ottimizzare voce sintetica prodotti da Text-to-Speech per la riproduzione su diversi tipi di hardware. Ad esempio, se l'app viene eseguita principalmente su dispositivi più piccoli, 'wearable' (indossabile) tipi di dispositivi, puoi creare sintesi vocale L'API Text-to-Speech ottimizzata specificamente per gli altoparlanti di piccole dimensioni.
Puoi anche applicare più profili di dispositivo allo stesso materiale sintetico
e parlato. L'API Text-to-Speech applica i profili del dispositivo all'audio in
ordine fornito nella richiesta al text:synthesize
endpoint. Evita di specificare lo stesso profilo più di una volta, in quanto potresti ottenere risultati indesiderati applicando lo stesso profilo più volte.
L'utilizzo dei profili audio è facoltativo. Se scegli di utilizzarne uno (o più), Text-to-Speech applica i profili ai risultati vocali post-sintesi. Se scegli di non utilizzare un profilo audio, riceverai i risultati di sintesi vocale senza alcuna modifica post-sintesi.
Per sentire la differenza tra l'audio generato da profili diversi, confronta i due clip di seguito.
Esempio 1. Audio generato con il profilo handset-class-device
Esempio 2. Audio generato con il profilo telephony-class-application
Nota: ogni profilo audio è stato ottimizzato per un dispositivo specifico modificando una serie di effetti audio. Tuttavia, la marca e il modello del dispositivo utilizzato per ottimizzare il profilo potrebbero non corrispondere esattamente ai dispositivi di riproduzione degli utenti. Potresti dover sperimentare profili diversi per trovare il miglior output audio per la tua applicazione.
Profili audio disponibili
La tabella seguente riporta gli ID e gli esempi dei profili del dispositivo disponibili per l'utilizzo dall'API Text-to-Speech.
ID profilo audio | Ottimizzato per |
---|---|
wearable-class-device |
Smartwatch e altri indossabili, come Apple Watch, smartwatch Wear OS |
handset-class-device |
Smartphone, come Google Pixel, Samsung Galaxy, Apple iPhone |
headphone-class-device |
Auricolari o cuffie per la riproduzione audio, come le cuffie Sennheiser |
small-bluetooth-speaker-class-device |
Altoparlanti domestici di piccole dimensioni, come Google Home Mini |
medium-bluetooth-speaker-class-device |
Speaker per la smart home, come Google Home |
large-home-entertainment-class-device |
Sistemi di intrattenimento per la casa o smart TV, ad esempio Google Home Max o LG TV |
large-automotive-class-device |
Altoparlanti per auto |
telephony-class-application |
Sistemi di Risposta Vocale Interattiva (IVR) |
Specifica un profilo audio da utilizzare
Per specificare un profilo audio da utilizzare, imposta il valore
effectsProfileId
per la richiesta di sintesi vocale.
Protocollo
Per generare un file audio, effettua una richiesta POST
e fornisci il
corpo della richiesta appropriato. Di seguito è riportato un esempio di richiesta POST
mediante curl
. L'esempio utilizza Google Cloud CLI per recuperare un token di accesso per la richiesta.
Per istruzioni sull'installazione di gcloud CLI, consulta
Esegui l'autenticazione in Text-to-Speech.
L'esempio seguente mostra come inviare una richiesta all'account
Endpoint text:synthesize
.
curl \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'input':{ 'text':'This is a sentence that helps test how audio profiles can change the way Cloud Text-to-Speech sounds.' }, 'voice':{ 'languageCode':'en-us', }, 'audioConfig':{ 'audioEncoding':'LINEAR16', 'effectsProfileId': ['telephony-class-application'] } }" "https://texttospeech.googleapis.com/v1beta1/text:synthesize" > audio-profile.txt
Se la richiesta ha esito positivo, l'API Text-to-Speech restituisce il testo sintetizzato
come dati con codifica Base64 contenuti nell'output JSON. Il file JSON
L'output nel file audio-profiles.txt
è simile al seguente:
{ "audioContent": "//NExAASCCIIAAhEAGAAEMW4kAYPnwwIKw/BBTpwTvB+IAxIfghUfW.." }
Per decodificare i risultati dell'API Cloud Text-to-Speech come file audio MP3, esegui il seguente comando dalla stessa directory del file audio-profiles.txt
.
sed 's|audioContent| |' < audio-profile.txt > tmp-output.txt && \ tr -d '\n ":{}' < tmp-output.txt > tmp-output-2.txt && \ base64 tmp-output-2.txt --decode > audio-profile.wav && \ rm tmp-output*.txt
Go
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta Librerie client Text-to-Speech. Per ulteriori informazioni, consulta API Go di Text-to-Speech documentazione di riferimento.
Per autenticarti a Text-to-Speech, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Java
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, consulta Librerie client Text-to-Speech. Per ulteriori informazioni, consulta API Java di Text-to-Speech documentazione di riferimento.
Per autenticarti a Text-to-Speech, configura Credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Node.js
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, vedi Librerie client di Text-to-Speech. Per ulteriori informazioni, consulta API Node.js di Text-to-Speech documentazione di riferimento.
Per autenticarti a Text-to-Speech, configura le credenziali predefinite dell'applicazione. Per maggiori informazioni, consulta Configurare l'autenticazione per un ambiente di sviluppo locale.
Python
Per scoprire come installare e utilizzare la libreria client per Text-to-Speech, vedi Librerie client di Text-to-Speech. Per ulteriori informazioni, consulta la documentazione di riferimento dell'API Text-to-Speech Python.
Per autenticarti a Text-to-Speech, configura le credenziali predefinite dell'applicazione. Per ulteriori informazioni, vedi Configura l'autenticazione per un ambiente di sviluppo locale.
Linguaggi aggiuntivi
C#: Segui le Istruzioni per la configurazione di C# Nella pagina delle librerie client e poi visita Documentazione di riferimento di Text-to-Speech per .NET.
PHP Segui le Istruzioni per la configurazione dei file PHP Nella pagina delle librerie client e poi visita Documentazione di riferimento di Text-to-Speech per PHP.
Ruby: Segui le Istruzioni per la configurazione di Ruby Nella pagina delle librerie client e poi visita Documentazione di riferimento di Text-to-Speech per Ruby.