Questa pagina è stata tradotta dall'API Cloud Translation.

Voci supportate

Text-to-Speech genera audio con una qualità naturale e simile a quella umana, che crea un parlato simile a quello di una persona reale. Per iniziare, specifica una voce quando invii una richiesta di sintesi.

Text-to-Speech offre una serie di voci in base a lingua, genere e accento. Per alcune lingue sono disponibili più opzioni. Per un elenco completo, consulta la pagina Voci supportate. Per selezionare una voce, utilizza il campo VoiceSelectionParams nella richiesta API.

Panoramica

Tipo di voce		Destinato a	Fase di avvio	Controllabilità	Streaming
Chirp 3: voci HD		Agenti conversazionali	Anteprima	-	Sì
Voci Chirp HD		Agenti conversazionali	Anteprima	-	Sì
Studio	Gruppo di due speaker	Contenuti multimediali: discussioni e interviste	Sperimentale	-	-
Studio	Una persona che parla	Contenuti multimediali: narrazione	GA	SSML	-
Neural2		Per uso generale	GA	SSML	-
Standard		Economico	GA	SSML	-

Dettagli dei prezzi

Chirp 3: voci HD

Chirp 3: le voci HD sono basate su una tecnologia che coglie le sfumature dell'intonazione umana, rendendo le conversazioni più coinvolgenti. Queste voci sono disponibili in 8 stili distinti in molte lingue, adatti sia per le applicazioni in tempo reale che per quelle standard.

Voci Chirp HD

Le voci Chirp HD sono basate sulla generazione più recente dei nostri modelli di IA generativa. Le voci Chirp HD ti consentono di creare un parlato più coinvolgente ed empatico per le applicazioni di conversazione. Tramite lo streaming di testo, le voci Chirp HD producono una comunicazione in tempo reale a bassa latenza e supportano le lingue elencate nella tabella delle voci supportate.

Esperienze di chat

Voce: en-US-Chirp-HD-F

Altri esempi

Assistenti virtuali

Voce: en-US-Chirp-HD-D

Chatbot di assistenza clienti

Voce: en-US-Chirp-HD-F

Applicazioni didattiche interattive

Voce: en-US-Chirp-HD-O

Presentazioni di vendita

Voce: en-US-Chirp-HD-D

È il momento di una storia

Voce: en-US-Chirp-HD-F

Voci multispeaker professionali

Crea discussioni e interviste con le nuove voci di studio multispeaker, basate sulla stessa tecnologia alla base delle voci Chirp HD.

Esempio: voci multispeaker professionali

Voci di Studio

Le voci professionali sono progettate per la lettura di notizie e la trasmissione di contenuti.

Esempio: la voce en-US-Studio-O che legge Il grande Gatsby.

Voci Neural2

L'API Text-to-Speech fornisce un livello vocale chiamato Neural2. Le voci Neural2 si basano sulla stessa tecnologia utilizzata per creare una voce personalizzata. Neural2 consente a chiunque di utilizzare la tecnologia Voce personalizzata senza addestrare la propria voce personalizzata. Sono disponibili negli endpoint a livello globale e per regione singola.

Esempio: voce Neural2

Voci standard

Le voci offerte da Text-to-Speech differiscono per la tecnologia vocale sintetica utilizzata per creare il modello di macchina della voce. Una tecnologia vocale comune, la sintesi vocale parametrica, tipicamente genera dati audio passando gli output attraverso algoritmi di elaborazione del segnale noti come vocoder. Molte delle voci standard disponibili in Text-to-Speech utilizzano una variante di questa tecnologia.

Passaggi successivi

Consulta le guide rapide per istruzioni su come effettuare una richiesta synthesize.

Voci supportate Mantieni tutto organizzato con le raccolte Salva e classifica i contenuti in base alle tue preferenze.

Panoramica

Chirp 3: voci HD

Voci Chirp HD

Esperienze di chat

Altri esempi

Assistenti virtuali

Chatbot di assistenza clienti

Applicazioni didattiche interattive

Presentazioni di vendita

È il momento di una storia

Voci multispeaker professionali

Voci di Studio

Voci Neural2

Voci standard

Passaggi successivi

Voci supportate