Prova Gemini 3, il nostro modello migliore per ragionamento, programmazione e comprensione multimodale in Gemini Enterprise Agent Platform

Text-to-Speech

AI di Text-to-Speech

Converti il testo in parlato dal suono naturale utilizzando un'API basata sulle migliori tecnologie di Google AI.

I nuovi clienti ricevono fino a 300 $ di crediti senza costi per provare Text-to-Speech e altri prodotti Google Cloud.

Fornisci risposte intelligenti e realistiche agli utenti con voci AI naturali
Crea interfacce vocali per app con sintesi vocale integrata
Personalizza la comunicazione e l'audio in base alle preferenze dell'utente per voce e lingua

Scopri come creare audio di sintesi vocale utilizzando l'API Text-to-Speech

Inizia il self-paced lab

Vantaggi

Parlato ad alta fedeltà

Esegui il deployment delle tecnologie all'avanguardia di Google per generare un discorso con un'intonazione simile a quella umana. Realizzata sulla base dell'esperienza di sintesi vocale di DeepMind, l'API produce voci di qualità simile a quella umana.

La più ampia selezione di voci

Scegli tra un set di oltre 380 voci per più di 75 lingue e varianti, tra cui mandarino, hindi, spagnolo, arabo, russo e molte altre ancora. Scegli la voce più adatta a utente e applicazione.

Voce esclusiva

Crea una voce esclusiva per rappresentare il tuo brand in tutti i touchpoint con i clienti, invece di usare la stessa voce di tutte le altre organizzazioni.

Demo

Metti alla prova Text-to-Speech

Digita ciò che vuoi, seleziona una lingua, quindi fai clic su "Speak It" (Leggi).

Funzionalità principali

Gemini-TTS

Sintetizza la voce di un singolo parlante o di più parlanti da brevi snippet a narrazioni complete, mantenendo la contestualità. Definisci con precisione stile, accento, ritmo, tono ed espressione emotiva, gestendo il tutto tramite semplici prompt in linguaggio naturale in oltre 75 impostazioni internazionali. Vai su Media Studio o consulta la nostra documentazione per saperne di più.

Voci in HD Chirp 3

Crea agenti coinvolgenti utilizzando le più recenti voci di conversazione spontanee basate su AudioLM. Queste voci offrono audio di alta qualità, streaming a bassa latenza e parlato dal suono naturale, incorporando esitazioni umane, varietà emotiva e intonazione accurata. Vai su Media Studio o consulta la nostra documentazione per saperne di più.

Voce personalizzata istantanea Chirp 3

Crea modelli vocali personalizzati con soli 10 secondi di input audio. Ideale per videogiochi, audiolibri, podcast e altro ancora. Disponibile in oltre 30 impostazioni internazionali. Vai su Media Studio o consulta la nostra documentazione per saperne di più.

Supporto di prompt, testo e SSML

Controlla la formattazione di numeri e orari, la resa vocale, la pronuncia e le emozioni utilizzando semplici script in testo non crittografato, tag SSML o persino potenti prompt in linguaggio naturale a seconda del supporto del modello. Vai su Media Studio o consulta la nostra documentazione per saperne di più.

Novità

Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.

Immagine vettoriale di persone che dicono "Ciao" in diverse lingue

Blog post

Ora l'API Google Cloud Text-to-Speech supporta le voci personalizzateLeggi il blog

Persona con uno smartphone in mano che mostra un audiolibro creato con la sintesi vocale

Video

Come convertire i PDF in audiolibri con il machine learningGuarda il video

disegno che mostra una conversazione basata sull'AI con Contact Center AI

Blog post

L'AI conversazionale migliora la customer experienceLeggi il blog

Donna che parla verso il microfono di un cellulare

Video

Soluzioni di accessibilità a chiamate telefoniche tramite Speech-to-Text e Text-to-SpeechGuarda il video

Immagine delle lingue e delle voci di Cloud Text-to-Speech sopra alcune righe con circa 25 bandiere di tutto il mondo

Blog post

Nuove voci e lingue per Text-to-SpeechLeggi il blog

Documentazione

Quickstart

Gemini-TTS

Scopri come controllare con precisione la sintesi vocale con Gemini-TTS, utilizzando prompt in linguaggio naturale per definire stile, tono, ritmo ed espressione emotiva.

Quickstart

Panoramica delle voci in HD Chirp 3

Scopri come sintetizzare una voce realistica ed emotivamente risonante utilizzando le voci di Chirp 3: HD e come ottimizzare l'audio con controlli avanzati e best practice di scripting.

Quickstart

Panoramica della voce personalizzata istantanea Chirp 3

Crea modelli vocali personalizzati ed esclusivi utilizzando solo 10 secondi di registrazioni audio per la tua organizzazione. Consente la generazione rapida di voci personali.

Tutorial

Sintesi vocale di indirizzi con SSML

Scopri come utilizzare il linguaggio SSML (Speech Synthesis Markup Language) per la sintesi vocale degli indirizzi contenuti in un file di testo.

Google Cloud Basics

Nozioni di base su Text-to-Speech

Guida ai concetti fondamentali sull'utilizzo dell'API Text-to-Speech.

Google Cloud Basics

Voci e lingue supportate

Scopri le guide e le risorse per questo prodotto.

Non trovi ciò che stai cercando?

Note di rilascio

Scopri di più sulle release più recenti di Text-to-Speech

Casi d'uso

Caso d'uso

Bot vocali nel contact center

Offri un'esperienza vocale migliore per l'assistenza clienti con voicebot su Customer Experience Agent Studio che generano una sintesi vocale dinamica, anziché una riproduzione audio statica e preregistrata. Utilizza voci sintetizzate di alta qualità per coinvolgere chi chiama e trasmettergli la sensazione di usufruire di un servizio accogliente e personalizzato.

Flusso dell'API Google Cloud Speech-to-Text

Caso d'uso

Generazione vocale nei dispositivi

Rendi più naturale la comunicazione con gli utenti consentendo ai tuoi dispositivi di parlare con voci simili a quella umana come un lettore di testo. Crea un'interfaccia utente vocale end-to-end insieme a Speech-to-Text e Natural Language per migliorare l'esperienza utente con interazioni semplici e coinvolgenti.

Da voce a testo con dispositivi e flusso IoT

Caso d'uso

EPG (guide elettroniche ai programmi) accessibili

Consenti alle EPG di leggere facilmente i testi ad alta voce per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni. Prova la demo delle EPG.

Implementa facilmente la funzionalità di sintesi vocale nelle EPG per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni.

Tutte le funzionalità

Sintesi audio in streaming	Potenzia i tuoi agenti AI con una voce a latenza molto bassa per conversazioni fluide e in tempo reale con la sintesi audio in streaming.
Sintesi di audio lunghi	Sintetizza in modo asincrono fino a 1 milione di byte di input con la sintesi audio di lunga durata.
Selezione di lingua e voce	Scegli da un'ampia selezione di oltre 380 voci per più di 75 lingue e varianti, con altre opzioni disponibili a breve.
Supporto di testo e SSML	Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia.
Regolazione del tono di voce	Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto al valore predefinito.
Regolazione della velocità del parlato	Regola la velocità del parlato rendendola fino a 4 volte superiore o inferiore rispetto a quella normale.
Controllo del guadagno del volume	Aumenta il volume dell'output fino a 16 db o riducilo fino a -96 db.
API REST e gRPC integrate	Si integrano facilmente con qualsiasi applicazione o dispositivo in grado di inviare una richiesta REST o gRPC, tra cui telefoni, computer, tablet e dispositivi IoT (ad esempio auto, TV e speaker).
Flessibilità del formato audio	Converti testo in MP3, Linear16, OGG Opus e in molti altri formati audio.
Profili audio	Ottimizza l'audio per il tipo di altoparlante da cui verrà riprodotta la voce, ad esempio cuffie o linee telefoniche.

Prezzi

I prezzi per l'API Text-to-Speech vengono calcolati in base al numero di caratteri da sintetizzare in audio inviati al servizio ogni mese. Il primo milione di caratteri per le voci WaveNet è senza costi ogni mese. Per le voci standard (non WaveNet), i primi 4 milioni di caratteri sono senza costi ogni mese. Una volta superato il livello senza costi, il prezzo di Text-to-Speech viene calcolato per ogni milione di caratteri di testo elaborati.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Google Cloud.

Fai il prossimo passo

I nuovi clienti ricevono 300 $ di crediti senza costi per provare Text-to-Speech e altri prodotti Google Cloud.

Hai bisogno di aiuto per iniziare?
Contatta il team di vendita
Collabora con un partner di fiducia
Trova un partner
Continua la navigazione
Visualizza tutti i prodotti

AI di Text-to-Speech

Parlato ad alta fedeltà

La più ampia selezione di voci

Voce esclusiva

Metti alla prova Text-to-Speech

Funzionalità principali

Gemini-TTS

Voci in HD Chirp 3

Voce personalizzata istantanea Chirp 3

Supporto di prompt, testo e SSML

Novità

Documentazione

Gemini-TTS

Panoramica delle voci in HD Chirp 3

Panoramica della voce personalizzata istantanea Chirp 3

Sintesi vocale di indirizzi con SSML

Nozioni di base su Text-to-Speech

Voci e lingue supportate

Non trovi ciò che stai cercando?

Esplora altri documenti

Casi d'uso

Bot vocali nel contact center

Generazione vocale nei dispositivi

EPG (guide elettroniche ai programmi) accessibili

Tutte le funzionalità

Prezzi

Fai il prossimo passo

Hai bisogno di aiuto per iniziare?

Collabora con un partner di fiducia

Continua la navigazione