Tipi di voci

Panoramica

Text-to-Speech genera dati audio del parlato naturale, simile a quello umano. In altre parole, crea un suono simile a quello di una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce.

È disponibile un'ampia selezione di voci per Text-to-Speech. Le voci differiscono per lingua, genere e accento (in alcune lingue). Per alcune lingue è possibile scegliere tra più voci. Consulta la pagina Voci supportate per un elenco completo delle voci disponibili nella tua lingua. Puoi indicare a Text-to-Speech di utilizzare una voce specifica di questo elenco impostando i campi VoiceSelectionParams quando invii una richiesta all'API. Per informazioni dettagliate su come inviare una richiesta di synthesize, consulta le guide rapide di Text-to-Speech.

Voci di viaggio

Le voci del percorso (sperimentale) sono supportate dai progressi nella modellazione linguistica di grandi dimensioni, che ne migliorano la ricchezza prosodica. Le voci del percorso gestiscono una gamma più ampia di tono, volume, timbro e durata. Hanno anche una meccanica vocale migliorata, che li rende migliori nella gestione di disfluenze e interruzioni rispetto alle altre opzioni vocali. Consigliamo di sperimentare queste voci per i casi d'uso del parlato conversazionale.


Esempio 1. La voce di en-US-Journey-D

Voci casuali (anteprima)

Le voci informali sono state progettate per gestire un dialogo conversazionale e imperfetto, in modo da favorire la naturalezza e il comfort con gli utenti umani. Supportano disfluenze (oh, uh, um, mhm) e hanno una cadenza e un tono più naturali.


Voci di studio

L'API Text-to-Speech offre un livello premium per la voce chiamato Studio. Questo tipo di voce è progettato specificamente per l'utilizzo con testi di lunga durata come narratori e lettura di notizie.


Esempio 1. La voce di en-US-Studio-O che legge il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello voce chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia di voce personalizzata senza addestrare la propria. Sono disponibili in endpoint globali e di una singola regione.


Esempio 1. Voce Neural2

Voci WaveNet

L'API Text-to-Speech offre inoltre un gruppo di voci premium generate utilizzando un modello WaveNet, la stessa tecnologia utilizzata per produrre la sintesi vocale per l'Assistente Google, la Ricerca Google e Google Traduttore. La tecnologia WaveNet non offre solo una serie di voci sintetiche, ma rappresenta un nuovo modo per creare la sintesi vocale.

Un elemento WaveNet genera una sintesi vocale più naturale di altri sistemi di sintesi vocale. Sintetizza il parlato con un'enfasi simile a quella umana e influisce su sillabe, fonemi e parole.

Il grafico mostra che WaveNet ha la massima preferenza da parte dei madrelingua Figura 1. Grafico che mostra il confronto tra WaveNet e altre voci sintetiche, voce umana. I valori dell'asse y rappresentano il punteggio medio delle opinioni (MOS) per ciascuna voce. I soggetti del test hanno classificato ogni voce su una scala da 1 a 5 in base a quanto suona come un linguaggio naturale. Per ulteriori informazioni sui punteggi MOS e sulla tecnologia WaveNet, consulta la pagina DeepMind WaveNet.

A differenza della maggior parte degli altri sistemi di sintesi vocale, un modello WaveNet crea forme d'onda audio non elaborate da zero. Il modello usa una rete neurale addestrata con grandi volumi di campioni vocali. Durante l'addestramento, la rete estrae la struttura di base del discorso, ad esempio i toni che si seguono e l'aspetto di una forma d'onda vocale realistica. Quando viene fornito un input di testo, il modello WaveNet addestrato può generare le forme d'onda vocali corrispondenti da zero, un campione alla volta, con un massimo di 24.000 campioni al secondo e transizioni fluide tra i singoli suoni.

Per sentire la differenza tra un clip audio generato da WaveNet e un clip generato da un altro processo di sintesi vocale, confronta i due clip audio riportati di seguito.


Esempio 1. Voce non WaveNet di alta qualità


Esempio 2. voce WaveNet

Voci standard

Le voci offerte da Text-to-Speech si differenziano per il modo in cui vengono prodotte, la tecnologia di sintesi vocale utilizzata per creare il modello di macchina della voce. Una tecnologia di riconoscimento vocale comune, la sintesi vocale parametrica, in genere genera dati audio passando gli output attraverso algoritmi di elaborazione dei segnali noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare le prestazioni di Text-to-Speech in scenari reali. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Text-to-Speech senza costi