Text-to-Speech genera audio con una qualità naturale e simile a quella umana, che crea un parlato simile a quello di una persona reale. Per iniziare, specifica una voce quando invii una richiesta di sintesi.
Text-to-Speech offre una serie di voci in base a lingua, genere e accento. Per alcune lingue sono disponibili più opzioni. Per un elenco completo, consulta la pagina Voci supportate. Per selezionare una voce, utilizza il campo VoiceSelectionParams
nella richiesta API.
Panoramica
Tipo di voce | Destinato a | Fase di avvio | Controllabilità | Streaming | |
---|---|---|---|---|---|
Chirp 3: voci HD |
Agenti conversazionali
|
Anteprima | - | Sì | |
Voci Chirp HD |
Agenti conversazionali
|
Anteprima | - | Sì | |
Studio | Gruppo di due speaker |
Contenuti multimediali: discussioni e interviste
|
Sperimentale | - | - |
Una persona che parla |
Contenuti multimediali: narrazione
|
GA | SSML | - | |
Neural2 |
Per uso generale
|
GA | SSML | - | |
Standard |
Economico
|
GA | SSML | - |
Chirp 3: voci HD
Chirp 3: le voci HD sono basate su una tecnologia che coglie le sfumature dell'intonazione umana, rendendo le conversazioni più coinvolgenti. Queste voci sono disponibili in 8 stili distinti in molte lingue, adatti sia per le applicazioni in tempo reale che per quelle standard.
Voci Chirp HD
Le voci Chirp HD sono basate sulla generazione più recente dei nostri modelli di IA generativa. Le voci Chirp HD ti consentono di creare un parlato più coinvolgente ed empatico per le applicazioni di conversazione. Tramite lo streaming di testo, le voci Chirp HD producono una comunicazione in tempo reale a bassa latenza e supportano le lingue elencate nella tabella delle voci supportate.
Esperienze di chat
Voce: en-US-Chirp-HD-F
Altri esempi
Assistenti virtuali
en-US-Chirp-HD-D
Chatbot di assistenza clienti
en-US-Chirp-HD-F
Applicazioni didattiche interattive
en-US-Chirp-HD-O
Presentazioni di vendita
en-US-Chirp-HD-D
È il momento di una storia
en-US-Chirp-HD-F
Voci multispeaker professionali
Crea discussioni e interviste con le nuove voci di studio multispeaker, basate sulla stessa tecnologia alla base delle voci Chirp HD.
Esempio: voci multispeaker professionali
Voci di Studio
Le voci professionali sono progettate per la lettura di notizie e la trasmissione di contenuti.
Esempio: la voce en-US-Studio-O
che legge Il grande Gatsby.
Voci Neural2
L'API Text-to-Speech fornisce un livello vocale chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili negli endpoint a livello globale e per regione singola.
Esempio: voce Neural2
Voci standard
Le voci offerte da Text-to-Speech differiscono per la tecnologia vocale sintetica utilizzata per creare il modello di macchina della voce. Una tecnologia vocale comune, la sintesi vocale parametrica, tipicamente genera dati audio passando gli output attraverso algoritmi di elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.
Passaggi successivi
Consulta le guide rapide per istruzioni su come effettuare una richiesta synthesize
.