Text-to-Speech genera audio con una qualità naturale simile a quella umana, che crea un parlato simile a quello di una persona reale. Per iniziare, specifica una voce quando invii una richiesta di sintesi.
Text-to-Speech offre una serie di voci in base a lingua, genere e accento. Per alcune lingue sono disponibili più opzioni. Per un elenco completo, consulta la pagina Voci supportate. Per selezionare una voce, utilizza il campo VoiceSelectionParams
nella richiesta API. Consulta le guide rapide per istruzioni su come effettuare una richiesta synthesize
.
Panoramica
Tipo di voce | Destinato a | Fase di avvio | Controllabilità | Streaming | |
---|---|---|---|---|---|
Percorso |
Agenti conversazionali
|
Anteprima | - | Sì | |
Studio | Gruppo di due speaker |
Contenuti multimediali - Discussioni e interviste
|
Sperimentale | - | - |
Una persona che parla |
Contenuti multimediali - Narrazione
|
GA | SSML | - | |
Neural2 |
Per uso generale
|
GA | SSML | - | |
Standard |
Economico
|
GA | SSML | - |
Voci di viaggio
Journey Voices, basato sul motore AudioLM, ti consente di creare un parlato più coinvolgente ed empatico per le applicazioni di conversazione. Tramite lo streaming di testo, Journey Voices produce comunicazioni in tempo reale a bassa latenza e supporta le lingue elencate nella tabella delle voci supportate.
Esperienze di chat
Voce: en-US-Journey-F
Altri esempi
Assistenti virtuali
en-US-Journey-D
Chatbot di assistenza clienti
en-US-Journey-F
Applicazioni didattiche interattive
en-US-Journey-O
Vendite e presentazioni
en-US-Journey-D
È il momento di una storia
en-US-Journey-F
Voci multispeaker professionali
Crea discussioni e interviste con le nuove voci di studio multispeaker, basate sulla stessa tecnologia alla base delle voci di Journey.
Voci di Studio
Le voci professionali sono progettate per la lettura di notizie e la trasmissione di contenuti.
Esempio 1. La voce en-US-Studio-O
che legge Il grande Gatsby.
Voci Neural2
L'API Text-to-Speech fornisce un livello vocale chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili negli endpoint a livello globale e per regione singola.
Esempio 1. Voce Neural2
Voci standard
Le voci offerte da Text-to-Speech differiscono per il modo in cui vengono prodotte, ovvero per la tecnologia di sintesi vocale utilizzata per creare il modello di macchina della voce. Una tecnologia vocale comune, la sintesi vocale parametrica, tipicamente genera dati audio passando gli output attraverso algoritmi di elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.