Nozioni di base su Cloud Text-to-Speech

Text-to-Speech consente agli sviluppatori di creare un discorso umano dal suono naturale e sintetico come audio riproducibile. Puoi utilizzare i file di dati audio creati utilizzando Text-to-Speech per potenziare le tue applicazioni o arricchire contenuti multimediali come video o registrazioni audio (in conformità con i Termini di servizio della piattaforma Google Cloud che includono tutte le leggi vigenti).

Text-to-Speech converte l'input di testo o SSML (Speech Synthesis Markup Language) in dati audio come MP3 o LINEAR16 (la codifica utilizzata nei file WAV).

Questo documento è una guida ai concetti fondamentali sull'utilizzo di Text-to-Speech. Prima di approfondire l'API, consulta le guide rapide.

Esempio di base

Text-to-Speech è ideale per qualsiasi applicazione che riproduce audio di voce umana per gli utenti. Consente di convertire stringhe, parole e frasi arbitrali nel suono di una persona che parla le stesse cose.

Immagina di avere un'app di assistente vocale che fornisce agli utenti feedback in linguaggio naturale sotto forma di file audio riproducibili. L'app potrebbe eseguire un'azione e fornire un discorso umano come feedback all'utente.

Ad esempio, la tua app potrebbe voler segnalare l'aggiunta di un evento al calendario dell'utente. L'app crea una stringa di risposta per segnalare l'esito positivo all'utente, ad esempio "Ho aggiunto l'evento al tuo calendario".

Con Text-to-Speech, puoi convertire la stringa di risposta in voce umana effettiva da riprodurre per l'utente, come nell'esempio fornito di seguito.


Esempio 1. File audio generato da Text-to-Speech

Per creare un file audio come l'esempio 1, invia una richiesta a Text-to-Speech come nel seguente snippet di codice.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'I\'ve added the event to your calendar.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Standard-A',
    'ssmlGender':'FEMALE'
  },
  'audioConfig':{
    'audioEncoding':'MP3'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Sintesi vocale

Il processo di traduzione dell'input di testo in dati audio è chiamato sintesi, mentre l'output della sintesi è chiamato linguaggio sintetico. Text-to-Speech accetta due tipi di input: testo non elaborato o dati in formato SSML (spiegati di seguito). Per creare un nuovo file audio, chiami l'endpoint synthesize dell'API.

Il processo di sintesi vocale genera dati audio non elaborati sotto forma di stringa codificata in Base64. Devi decodificare la stringa con codifica Base64 in un file audio prima che un'applicazione possa riprodurlo. La maggior parte delle piattaforme e dei sistemi operativi offre strumenti per decodificare il testo base64 in file multimediali riproducibili.

Per scoprire di più sulla sintesi, consulta le guide rapide o la pagina Creazione di file audio vocali.

Voci

Text-to-Speech crea dati audio non elaborati del parlato naturale e umano. In altre parole, crea un suono simile a quello di una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce che "riproduca" le parole.

Text-to-Speech offre un'ampia selezione di voci personalizzate disponibili per l'uso. Le voci differiscono per lingua, genere e accento (per alcune lingue). Ad esempio, puoi creare un audio che riproduca il suono di una donna di lingua inglese con un accento britannico, come l'esempio 1 sopra. Puoi anche convertire lo stesso testo in una voce diversa, ad esempio un uomo di lingua inglese con accento australiano.


Esempio 2. File audio generato con l'oratore en-AU

Per visualizzare l'elenco completo delle voci disponibili, vedi Voci supportate.

Voci WaveNet

Oltre ad altre voci sintetiche tradizionali, Text-to-Speech offre anche voci premium generate da WaveNet. Gli utenti ritengono che le voci generate da Wavenet siano più calde e simili ad altre voci sintetiche.

La differenza principale di una voce WaveNet è il modello WaveNet utilizzato per generare la voce. I modelli WaveNet sono stati addestrati utilizzando campioni audio non elaborati di persone reali che parlano. Di conseguenza, questi modelli generano un discorso sintetico con enfasi più umana e inflessione su sillabe, fonemi e parole.

Confronta i seguenti due esempi di sintesi vocale.


Esempio 3. File audio generato con una voce standard


Esempio 4. File audio generato con una voce WaveNet

Per scoprire di più sui vantaggi delle voci generate da WaveNet, consulta Tipi di voci.

Altre impostazioni di uscita audio

Oltre alla voce, puoi configurare anche altri aspetti dell'output dei dati audio creati dalla sintesi vocale. Text-to-Speech supporta la configurazione di frequenza vocale, tono, volume e frequenza di campionamento.

Per saperne di più, consulta il riferimento AudioConfig.

Supporto di Speech Synthesis Markup Language (SSML)

Puoi migliorare la sintesi vocale prodotta da Text-to-Speech markup del testo con Speech Synthesis Markup Language (SSML). SSML consente di inserire pause, pronunce di acronimi o altri dettagli aggiuntivi nei dati audio creati da Text-to-Speech. Text-to-Speech supporta un sottoinsieme di elementi SSML disponibili.

Ad esempio, puoi fare in modo che la sintesi vocale pronunci correttamente i numeri ordinali fornendo Text-to-Speech con input SSML che contrassegna i numeri ordinali come tali.


Esempio 5. File audio generato da un input di testo normale


Esempio 6. File audio generato dall'input SSML

Per scoprire di più su come sintetizzare la voce da SSML, consulta Creazione di file audio vocali

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Text-to-Speech in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Text-to-Speech senza costi