Tipi di voci

Text-to-Speech genera dati audio di conversazioni naturali, simili a quelle umane. vale a dire che crea un audio simile a quello di una persona che parla. Quando invii una richiesta di sintesi a Text-to-Speech, devi specifica una voce.

Hai a disposizione un'ampia selezione di voci tra cui scegliere Text-to-Speech. Le voci variano per lingua, genere e accento (per alcune lingue). Per alcune lingue è possibile scegliere tra più voci. Consulta la pagina Voci supportate per un elenco completo di voci disponibili nella tua lingua. Puoi dire a Text-to-Speech a utilizza una voce specifica di questo elenco VoiceSelectionParams quando invii una richiesta all'API. Vedi Text-to-Speech Guide rapide per i dettagli su come inviare un synthesize.

Voci del viaggio

Le voci del percorso, basate su AudioLM, sono voci conversazionali spontanee. Rivedi gli esempi migliori per scoprire come possono essere utilizzati. Per scoprire quale lingue in cui sono disponibili, consulta la tabella delle voci supportate.

Esperienze di chat


en-US-Journey-F

Assistenti virtuali


en-US-Journey-D

Chatbot dell'assistenza clienti


en-US-Journey-F

Applicazioni di istruzione interattiva


en-US-Journey-O

Vendite e presentazioni


en-US-Journey-D

È un momento di storia


en-US-Journey-F

Voci informali (anteprima)

Le voci informali sono state progettate per gestire un dialogo imperfetto e conversazionale per naturalezza e tranquillità degli utenti umani. Supportano le variazioni (oh, uh, um, mhm) e hanno una cadenza e un tono più naturali.


Voci di Studio

Le voci in studio sono voci narranti progettate per la lettura di notizie e la trasmissione contenuti.


Esempio 1. La voce en-US-Studio-O che legge il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello voce chiamato Neural2. Neural2 si basano sulla stessa tecnologia usata per creare Voce personalizzata. Neural2 consente a chiunque di usare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili in tutto il mondo e endpoint regione.


Esempio 1. voce Neural2

Voci WaveNet

L'API Text-to-Speech offre inoltre un gruppo di voci premium generate utilizzando una Modello WaveNet, la stessa tecnologia utilizzata per produrre il parlato per Assistente Google, Ricerca Google e Google Traduttore. WaveNet la tecnologia offre molto di più di una semplice serie di voci sintetiche: rappresenta un nuovo modo di creare la sintesi vocale.

Un WaveNet genera un parlato con un suono più naturale di altre sistemi di sintesi vocale. Sintetizza il parlato con contenuti enfasi e inflessione su sillabe, fonemi e parole.

Il grafico mostra che WaveNet è quello preferito dagli utenti madrelingua Figura 1. Grafico che mostra il confronto tra WaveNet e altre voci sintetiche, umane e parlato. I valori dell'asse y rappresentano il punteggio medio di opinione (MOS) per ogni voce. I soggetti del test hanno classificato ciascuna voce su una scala da 1 a 5 in base al livello suonava come un discorso naturale. Per ulteriori informazioni sui punteggi MOS e su WaveNet consulta la sezione DeepMind WaveNet .

A differenza della maggior parte degli altri sistemi di sintesi vocale, un modello WaveNet crea audio non elaborati forme d'onda da zero. Il modello utilizza una rete neurale vengono addestrati utilizzando un grande volume di campioni vocali. Durante l'addestramento, estrae la struttura sottostante del parlato, ad esempio i toni che si susseguono e come appare una forma d'onda vocale realistica. Quando dato un input di testo, il modello WaveNet addestrato può generare le forme d'onda vocale corrispondenti da zero, un campione alla volta, con fino a 24.000 campioni al secondo e transizioni fluide tra i i suoni.

Per ascoltare la differenza tra un clip audio generato da WaveNet e un generato da un altro processo di sintesi vocale, confronta i due clip audio riportati di seguito.


Esempio 1. Voce non WaveNet di alta qualità


Esempio 2. voce WaveNet

Voci standard

Le voci offerte da Text-to-Speech si differenziano per quanto riguarda la tecnologia di sintesi vocale usata per creare il modello di della voce. Una tecnologia di sintesi vocale comune, la sintesi vocale parametrica, solitamente genera dati audio passando le uscite attraverso l'elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano un di questa tecnologia.

Provalo

Se non hai mai utilizzato Google Cloud, crea un account per valutare in che modo Text-to-Speech funziona nel mondo reale diversi scenari. I nuovi clienti ricevono anche 300 $ di crediti gratuiti per l'esecuzione, il test e il deployment dei carichi di lavoro.

Prova Text-to-Speech senza costi