Tipi di voci

Text-to-Speech genera audio con una qualità naturale simile a quella umana, che crea un parlato simile a quello di una persona reale. Per iniziare, specifica una voce quando invii una richiesta di sintesi.

Text-to-Speech offre una serie di voci in base a lingua, genere e accento. Per alcune lingue sono disponibili più opzioni. Per un elenco completo, consulta la pagina Voci supportate. Per selezionare una voce, utilizza il campo VoiceSelectionParams nella richiesta API. Consulta le guide rapide per istruzioni su come effettuare una richiesta synthesize.

Panoramica

Tipo di voce Destinato a Fase di avvio Controllabilità Streaming
Percorso Agenti conversazionali
Anteprima -
Studio Gruppo di due speaker Contenuti multimediali - Discussioni e interviste

Sperimentale - -
Una persona che parla Contenuti multimediali - Narrazione
GA SSML -
Neural2 Per uso generale
GA SSML -
Standard Economico
GA SSML -

Dettagli dei prezzi

Voci di viaggio

Journey Voices, basato sul motore AudioLM, ti consente di creare un parlato più coinvolgente ed empatico per le applicazioni di conversazione. Tramite lo streaming di testo, Journey Voices produce comunicazioni in tempo reale a bassa latenza e supporta le lingue elencate nella tabella delle voci supportate.

Esperienze di chat


Voce: en-US-Journey-F

Altri esempi

Assistenti virtuali


Voce: en-US-Journey-D

Chatbot di assistenza clienti


Voce: en-US-Journey-F

Applicazioni didattiche interattive


Voce: en-US-Journey-O

Vendite e presentazioni


Voce: en-US-Journey-D

È il momento di una storia


Voce: en-US-Journey-F

Voci multispeaker professionali

Crea discussioni e interviste con le nuove voci di studio multispeaker, basate sulla stessa tecnologia alla base delle voci di Journey.


Voci di Studio

Le voci professionali sono progettate per la lettura di notizie e la trasmissione di contenuti.


Esempio 1. La voce en-US-Studio-O che legge Il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello vocale chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili negli endpoint a livello globale e per regione singola.


Esempio 1. Voce Neural2

Voci standard

Le voci offerte da Text-to-Speech differiscono per il modo in cui vengono prodotte, ovvero per la tecnologia di sintesi vocale utilizzata per creare il modello di macchina della voce. Una tecnologia vocale comune, la sintesi vocale parametrica, tipicamente genera dati audio passando gli output attraverso algoritmi di elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.