Text-to-Speech consente agli sviluppatori di creare un parlato umano sintetico dal suono naturale come audio riproducibile. Puoi utilizzare i file di dati audio creati con Text-to-Speech per potenziare le tue applicazioni o migliorare i contenuti multimediali come video o registrazioni audio (nel rispetto dei Termini di servizio di Google Cloud Platform, che prevedono anche il rispetto di tutte le leggi vigenti).
Text-to-Speech converte testo o voce Synthesis Markup Language (SSML) in dati audio come MP3 o LINEAR16 (la codifica utilizzata nei file WAV).
Questo documento è una guida ai concetti fondamentali sull'utilizzo di Text-to-Speech. Prima di approfondire l'API, rivedi le guide rapide.
Esempio di base
Text-to-Speech è ideale per qualsiasi applicazione che riproduce audio di e il linguaggio umano agli utenti. Ti consente di convertire stringhe, parole e frasi arbitrarie nella voce di una persona che parla delle stesse cose.
Immagina di avere un'app di assistenza vocale che fornisce ai tuoi utenti feedback in linguaggio naturale come file audio riproducibili. L'app potrebbe eseguire un'azione e poi fornire un feedback vocale all'utente.
Ad esempio, la tua app potrebbe voler segnalare di aver aggiunto correttamente un evento al calendario dell'utente. L'app crea una stringa di risposta per segnalare il successo all'utente, ad esempio "Ho aggiunto l'evento al tuo calendario".
Con la sintesi vocale, puoi convertire la stringa di risposta in un vero e proprio parlato umano da riprodurre all'utente, in modo simile all'esempio fornito di seguito.
Esempio 1. File audio generato da Text-to-Speech
Per creare un file audio come nell'esempio 1, invia una richiesta a Text-to-Speech come lo snippet di codice seguente.
curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
'input':{
'text':'I\'ve added the event to your calendar.'
},
'voice':{
'languageCode':'en-gb',
'name':'en-GB-Standard-A',
'ssmlGender':'FEMALE'
},
'audioConfig':{
'audioEncoding':'MP3'
}
}" "https://texttospeech.googleapis.com/v1/text:synthesize"
Sintesi vocale
Il processo di traduzione dell'input di testo in dati audio è chiamato sintesi e
l'output della sintesi è chiamato voce sintetica.
Text-to-Speech accetta due tipi di input: testo non elaborato o
dati formattati SSML (descritti di seguito). Per creare un nuovo file audio, chiama l'endpoint synthesize
dell'API.
Il processo di sintesi vocale genera dati audio non elaborati come stringa con codifica base64. Devi decodificare la stringa con codifica base64 in un file audio prima un'applicazione possa riprodurlo. La maggior parte delle piattaforme e dei sistemi operativi ha per decodificare il testo base64 in file multimediali riproducibili.
Per saperne di più sulla sintesi, consulta i tutorial di avvio rapido o la pagina Creare file audio vocali.
Voci
Text-to-Speech crea dati audio non elaborati di parlato naturale umano. In altre parole, crea audio che sembra una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce che "parla" le parole.
Text-to-Speech offre un'ampia selezione di voci personalizzate disponibili da utilizzare. Le voci variano per lingua, genere e accento (per alcuni lingue). Ad esempio, puoi creare un audio che imita il suono di una persona di lingua inglese con un accento britannico, come nell'esempio 1 riportato sopra. Puoi anche convertire lo stesso testo con una voce diversa, ad esempio un uomo Persona di lingua inglese con un accento australiano.
Esempio 2. File audio generato con lo speaker in inglese australiano
Per vedere l'elenco completo delle voci disponibili, vedi Voci supportate.
Voci WaveNet
Insieme ad altre voci sintetiche tradizionali, Text-to-Speech fornisce inoltre servizi premium, generati da WaveNet voci. Gli utenti trovano che le voci generate da Wavenet siano più calde e simili ad altre voci sintetiche.
La differenza principale rispetto a una voce WaveNet è il modello WaveNet utilizzato per generare la voce. I modelli WaveNet sono stati addestrati utilizzando campioni audio non elaborati di che parlano altre persone. Di conseguenza, questi modelli generano un parlato sintetico con un'enfasi e un'inflessione più simili a quelle umane su sillabe, fonemi e parole.
Confronta i seguenti due esempi di sintesi vocale.
Esempio 3. File audio generato con una voce standard
Esempio 4. File audio generato con una voce WaveNet
Per ulteriori informazioni sui vantaggi delle voci generate da WaveNet, vedi Tipi di voci.
Altre impostazioni di output audio
Oltre alla voce, puoi configurare anche altri aspetti dell'audio come output di dati creato dalla sintesi vocale. Text-to-Speech supporta la configurazione di velocità del parlato, tono, volume e campionamento l'hertz.
Per ulteriori informazioni, consulta le Informazioni di riferimento su AudioConfig.
Supporto di Speech Synthesis Markup Language (SSML)
Puoi migliorare l'audio sintetico prodotto da Text-to-Speech evidenziando il testo utilizzando Speech Synthesis Markup Language (SSML). Il linguaggio SSML consente di inserire pause, pronuncia di acronimi o altri dettagli aggiuntivi nei dati audio creati da Text-to-Speech. Text-to-Speech supporta una sottoinsieme degli elementi SSML disponibili.
Ad esempio, puoi assicurarti che il parlato sintetico pronunci correttamente i numeri ordinali fornendo a Text-to-Speech un input SSML che li contrassegni come tali.
Esempio 5. File audio generato da input di testo normale
Esempio 6. File audio generato dall'input SSML
Per scoprire di più su come sintetizzare la voce da SSML, consulta Creazione di file audio vocali