Text-to-Speech genera dati audio di parlato naturale simile a quello umano. In altre parole, crea audio che sembra una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specificare una voce.
Hai a disposizione un'ampia selezione di voci tra cui scegliere
Text-to-Speech. Le voci variano per lingua, genere e accento
(per alcune lingue). Per alcune lingue sono disponibili più voci tra cui scegliere. Per un elenco completo delle voci disponibili nella tua lingua, consulta la pagina Voci supportate. Puoi chiedere a Text-to-Speech di utilizzare una voce specifica da questo elenco impostando i campi VoiceSelectionParams
quando invii una richiesta all'API. Consulta le guide rapide di Text-to-Speech per informazioni dettagliate su come inviare una richiesta synthesize
.
Voci del percorso (anteprima)
Journey Voices, basato sul motore AudioLM, ti consente di creare un parlato più coinvolgente ed empatico per le applicazioni di conversazione. Tramite lo streaming di testo, Journey Voices produce comunicazioni in tempo reale a bassa latenza e supporta le lingue elencate nella tabella delle voci supportate.
Esperienze di chat
it-IT-Journey-F
Assistenti virtuali
en-US-Journey-D
Chatbot dell'assistenza clienti
en-US-Journey-F
Applicazioni didattiche interattive
en-US-Journey-O
Vendite e presentazioni
en-US-Journey-D
È un momento di storia
en-US-Journey-F
Voci informali (anteprima)
Le voci informali sono state progettate per gestire un dialogo colloquiale e imperfetto per una maggiore naturalezza e comodità per gli utenti umani. Supportano le variazioni (oh, uh, um, mhm) e hanno una cadenza e un tono più naturali.
Voci di Studio
Le voci di studio sono voci narranti progettate per la lettura di notizie e la trasmissione contenuti.
Esempio 1. La voce en-US-Studio-O
che legge il grande Gatsby.
Voci Neural2
L'API Text-to-Speech fornisce un livello voce chiamato Neural2. Neural2 si basano sulla stessa tecnologia usata per creare Voce personalizzata. Neural2 consente a chiunque di usare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili in tutto il mondo e endpoint regione.
Esempio 1. voce Neural2
Voci WaveNet
L'API Text-to-Speech offre anche un gruppo di voci premium generate utilizzando un modello WaveNet, la stessa tecnologia utilizzata per produrre voce per l'Assistente Google, la Ricerca Google e Google Traduttore. WaveNet la tecnologia offre molto di più di una semplice serie di voci sintetiche: rappresenta un nuovo modo di creare la sintesi vocale.
Un WaveNet genera un parlato con un suono più naturale di altre sistemi di sintesi vocale. Sintetizza il parlato con un'enfasi e un'inflessione più simili a quelle umane su sillabe, fonemi e parole.
Figura 1. Grafico che mostra il confronto tra WaveNet e altre voci sintetiche, parlato umano. I valori dell'asse Y rappresentano il punteggio medio di opinione (MOS) per ogni voce. I soggetti del test hanno assegnato a ogni voce un punteggio da 1 a 5 in base a quanto sembrava simile al parlato naturale. Per ulteriori informazioni sui punteggi MOS e su WaveNet consulta la sezione DeepMind WaveNet .
A differenza della maggior parte degli altri sistemi di sintesi vocale, un modello WaveNet crea audio non elaborati forme d'onda da zero. Il modello utilizza una rete neurale vengono addestrati utilizzando un grande volume di campioni vocali. Durante l'addestramento, estrae la struttura sottostante del parlato, ad esempio i toni l'uno l'altro e l'aspetto di una forma d'onda vocale realistica. Quando viene fornito un input di testo, il modello WaveNet addestrato può generare da zero le forme d'onda vocali corrispondenti, un campione alla volta, con fino a 24.000 campioni al secondo e transizioni senza interruzioni tra i singoli suoni.
Per ascoltare la differenza tra un clip audio generato da WaveNet e un generato da un altro processo di sintesi vocale, confronta i due clip audio riportati di seguito.
Esempio 1. Voce non WaveNet di alta qualità
Esempio 2. Voce WaveNet
Voci standard
Le voci offerte da Text-to-Speech si differenziano per quanto riguarda la tecnologia di sintesi vocale usata per creare il modello della voce. Una tecnologia vocale comune, la sintesi vocale parametrica, tipicamente genera dati audio passando gli output attraverso algoritmi di elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano un di questa tecnologia.