Converti il testo in parlato dal suono naturale utilizzando un'API basata sulle migliori tecnologie IA di Google.
I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare Text-to-Speech e altri prodotti Google Cloud.
Migliora le interazioni con i clienti con risposte intelligenti e realistiche
Coinvolgi gli utenti con l'interfaccia utente vocale nei tuoi dispositivi e nelle tue applicazioni
Personalizza la comunicazione in base alle preferenze dell'utente per voce e lingua
Vantaggi
Esegui il deployment delle tecnologie all'avanguardia di Google per generare un discorso con un'intonazione simile a quella umana. Realizzata sulla base dell'esperienza di sintesi vocale di DeepMind, l'API genera voci di qualità simile a quella umana.
Scegli tra un set di oltre 380 voci per più di 75 lingue e varianti, tra cui mandarino, hindi, spagnolo, arabo, russo e molte altre ancora. Scegli la voce più adatta a utente e applicazione.
Crea una voce esclusiva per rappresentare il tuo brand in tutti i touchpoint con i clienti, invece di usare la stessa voce di tutte le altre organizzazioni.
Demo
Digita ciò che vuoi, seleziona una lingua, quindi fai clic su "SPEAK IT" (LEGGILO) per ascoltare.
Funzionalità principali
Sintetizza la voce di un singolo parlante o di più parlanti da brevi snippet a narrazioni complete, mantenendo la contestualità. Definisci con precisione stile, accento, ritmo, tono ed espressione emotiva, gestendo il tutto tramite semplici prompt in linguaggio naturale in oltre 75 impostazioni internazionali. Vai su Media Studio o consulta la nostra documentazione per saperne di più.
Crea agenti coinvolgenti utilizzando le più recenti voci di conversazione spontanee basate su AudioLM. Queste voci offrono audio di alta qualità, streaming a bassa latenza e parlato dal suono naturale, incorporando esitazioni umane, varietà emotiva e intonazione accurata. Vai su Media Studio o consulta la nostra documentazione per saperne di più.
Crea modelli vocali personalizzati con soli 10 secondi di input audio. Ideale per videogiochi, audiolibri, podcast e altro ancora. Disponibile in oltre 30 impostazioni internazionali. Vai su Media Studio o consulta la nostra documentazione per saperne di più.
Controlla la formattazione di numeri e orari, la resa vocale, la pronuncia e le emozioni utilizzando semplici script in testo normale, tag SSML o persino potenti prompt in linguaggio naturale a seconda del supporto del modello. Vai su Media Studio o consulta la nostra documentazione per saperne di più.
Novità
Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.
Documentazione
Casi d'uso
Offri un'esperienza vocale migliore per l'assistenza clienti con i bot vocali su Dialogflow che generano una sintesi vocale dinamica, anziché una riproduzione audio statica e preregistrata. Utilizza voci sintetizzate di alta qualità per coinvolgere chi chiama e trasmettergli la sensazione di usufruire di un servizio accogliente e personalizzato.
Rendi più naturale la comunicazione con gli utenti consentendo ai tuoi dispositivi di parlare con voci simili a quella umana come un lettore di testo. Crea un'interfaccia utente vocale end-to-end insieme a Speech-to-Text e Natural Language per migliorare l'esperienza utente con interazioni semplici e coinvolgenti.
Consenti alle EPG di leggere facilmente i testi ad alta voce per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni. Prova la demo delle EPG.
Implementa facilmente la funzionalità di sintesi vocale nelle EPG per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni.
Tutte le funzionalità
| Sintesi audio in streaming | Potenzia i tuoi agenti AI con una voce a latenza molto bassa per conversazioni fluide e in tempo reale con la sintesi audio in streaming. |
| Sintesi audio lunga | Sintetizza in modo asincrono fino a 1 milione di byte di input con la sintesi audio di lunga durata. |
| Selezione di lingua e voce | Scegli da un'ampia selezione di oltre 380 voci per più di 75 lingue e varianti, con altre opzioni presto in arrivo. |
| Supporto di testo e SSML | Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia. |
| Regolazione del tono di voce | Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto al valore predefinito. |
| Regolazione della velocità del parlato | Regola la velocità del parlato rendendola fino a 4 volte superiore o inferiore rispetto a quella normale. |
| Controllo del guadagno del volume | Aumenta il volume dell'output fino a 16 db o riducilo fino a -96 db. |
| API REST e gRPC integrate | Si integrano facilmente con qualsiasi applicazione o dispositivo in grado di inviare una richiesta REST o gRPC, tra cui telefoni, computer, tablet e dispositivi IoT (ad esempio auto, TV e speaker). |
| Flessibilità del formato audio | Converti testo in MP3, Linear16, OGG Opus e in molti altri formati audio. |
| Profili audio | Ottimizza l'audio per il tipo di speaker da cui verrà riprodotta la tua voce, ad esempio cuffie o linee telefoniche. |
Prezzi
I prezzi per l'API Text-to-Speech vengono calcolati in base al numero di caratteri da sintetizzare in audio inviati al servizio ogni mese. Il primo milione di caratteri per le voci WaveNet è gratuito ogni mese. Per le voci standard (non WaveNet), i primi 4 milioni di caratteri sono gratuiti ogni mese. Una volta superato il livello gratuito, il prezzo di Text-to-Speech viene calcolato per ogni milione di caratteri di testo elaborati.
Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Google Cloud.
I nuovi clienti ricevono 300 $ di crediti gratuiti per provare Text-to-Speech e altri prodotti Google Cloud.