Tipi di voci

Text-to-Speech genera dati audio di conversazioni naturali, simili a quelle umane. vale a dire che crea un audio simile a quello di una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce.

In Text-to-Speech è disponibile un'ampia selezione di voci. Le voci variano per lingua, genere e accento (in alcune lingue). Per alcune lingue è possibile scegliere tra più voci. Consulta la pagina Voci supportate per un elenco completo delle voci disponibili nella tua lingua. Puoi indicare a Text-to-Speech di utilizzare una voce specifica di questo elenco impostando i campi VoiceSelectionParams quando invii una richiesta all'API. Per informazioni dettagliate su come inviare una richiesta synthesize, consulta le istruzioni rapide di Text-to-Speech.

Voci del viaggio

Le voci del percorso, basate su AudioLM, sono voci conversazionali spontanee. Esamina gli esempi successivi per scoprire come possono essere utilizzati. Per scoprire in quali lingue sono disponibili, consulta la tabella delle voci supportate.

Esperienze di chat


en-US-Journey-F

Assistenti virtuali


en-US-Journey-D

Chatbot dell'assistenza clienti


en-US-Journey-F

Applicazioni di istruzione interattiva


en-US-Journey-O

Vendite e presentazioni


en-US-Journey-D

È un momento di storia


en-US-Journey-F

Voci informali (anteprima)

Le voci informali sono state progettate per gestire un dialogo imperfetto e conversazionale per garantire la naturalezza e il comfort degli utenti. Supportano le variazioni (oh, uh, um, mhm) e hanno una cadenza e un tono più naturali.


Voci di Studio

Le voci di studio sono voci narranti progettate per la lettura di notizie e la trasmissione di contenuti.


Esempio 1. La voce en-US-Studio-O che legge il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello voce chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di usare la tecnologia Voce personalizzata senza addestrare la propria. Sono disponibili in endpoint globali e a livello di regione singola.


Esempio 1. voce Neural2

Voci WaveNet

L'API Text-to-Speech offre inoltre un gruppo di voci premium generate utilizzando un modello WaveNet, la stessa tecnologia utilizzata per produrre il parlato per l'Assistente Google, la Ricerca Google e Google Traduttore. La tecnologia WaveNet non fornisce solo una serie di voci sintetiche: rappresenta un nuovo modo di creare la sintesi vocale.

WaveNet genera un parlato con un suono più naturale rispetto ad altri sistemi di sintesi vocale. Sintetizza il parlato con un'enfasi e un'inflessione di tipo umano in sillabe, fonemi e parole.

Il grafico mostra che WaveNet è quello preferito dagli utenti madrelingua Figura 1. Grafico che mostra il confronto tra WaveNet e altre voci sintetiche e il parlato umano. I valori dell'asse y rappresentano il punteggio medio di opinione (MOS) per ogni voce. I soggetti del test hanno classificato ciascuna voce su una scala da 1 a 5 in base a quanto suonava come un parlato naturale. Per ulteriori informazioni sui punteggi MOS e sulla tecnologia WaveNet, consulta la pagina DeepMind WaveNet.

A differenza della maggior parte degli altri sistemi di sintesi vocale, un modello WaveNet crea forme d'onda audio non elaborate da zero. Il modello usa una rete neurale addestrata utilizzando un grande volume di campioni vocali. Durante l'addestramento, la rete estrae la struttura di base del parlato, ad esempio quali toni si susseguono e l'aspetto di una forma d'onda realistica del parlato. Quando viene fornito un input di testo, il modello WaveNet addestrato può generare da zero le forme d'onda vocale corrispondenti, un campione alla volta, con un massimo di 24.000 campioni al secondo e transizioni fluide tra i singoli suoni.

Per ascoltare la differenza tra un clip audio generato da WaveNet e un clip generato da un altro processo di sintesi vocale, confronta i due clip audio riportati di seguito.


Esempio 1. Voce non WaveNet di alta qualità


Esempio 2. voce WaveNet

Voci standard

Le voci offerte da Text-to-Speech variano per come vengono prodotte, ovvero la tecnologia di sintesi vocale utilizzata per creare il modello automatico della voce. Una tecnologia di sintesi vocale comune, la sintesi vocale parametrica, in genere genera dati audio passando gli output tramite algoritmi di elaborazione dei segnali noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Text-to-Speech in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Text-to-Speech gratuitamente