Cloud Text-to-Speech
Conversione da testo a voce basata sulla tecnologia di machine learning.
Fai una prova gratuita Visualizza la documentazioneSintesi vocale ad alta precisione
Google Cloud Text-to-Speech consente di convertire un testo in linguaggio parlato dal suono naturale con oltre 180 voci per più di 30 lingue e varianti. Applica ricerche rivoluzionarie nell'ambito della sintesi vocale (WaveNet) e delle reti neurali di Google per offrire audio ad alta fedeltà. Con questa API di facile utilizzo, puoi creare interazioni realistiche con gli utenti in grado di trasformare l'assistenza clienti, l'interazione con i dispositivi e molte altre applicazioni.
Converti il testo in parlato ora
Digita ciò che vuoi, seleziona una lingua, quindi fai clic su "Speak It" per ascoltare.
Basata sulla tecnologia machine learning di Google
Applica gli avanzati algoritmi di rete neurale di deep learning per sintetizzare il testo in una varietà di voci e lingue. Le nostre reti neurali si basano sull'esperienza di Google nell'ambito della sintesi vocale.
Scegli tra oltre 180 voci
Google Cloud Text-to-Speech offre una selezione di oltre 180 voci per più di 30 lingue e varianti, consentendo agli sviluppatori di scegliere la voce che si adatta meglio alla loro applicazione.
Accesso esclusivo alla tecnologia WaveNet
DeepMind ha svolto ricerche rivoluzionarie nell'ambito dei modelli di machine learning per generare un sistema di sintesi vocale che imita in modo più naturale voci e suoni umani, riducendo il divario rispetto alla controparte umana del 70%. Cloud Text-to-Speech offre accesso esclusivo a oltre 90 voci WaveNet e continuerà ad aggiungerne altre in futuro.
Facilità di integrazione con le applicazioni e i dispositivi esistenti
Cloud Text-to-Speech supporta qualsiasi applicazione o dispositivo in grado di inviare una richiesta REST o gRPC tra cui telefoni, PC, tablet e dispositivi IoT (ad esempio auto, TV e altoparlanti).
Supporto di molti casi d'uso comuni
Google Cloud Text-to-Speech è un'API di facile utilizzo e, come tale, rappresenta una soluzione flessibile per la creazione di esperienze realistiche per un'ampia gamma di casi d'uso. Alcuni casi d'uso comuni includono l'automazione dei call center, le risposte interattive dei dispositivi IoT o la trasformazione di testo in audio.
Funzionalità di Cloud Text-to-Speech
- Supporto multilingue
- Supporta oltre 180 voci per più di 30 lingue e varianti, con altre lingue presto in arrivo.
- Voci WaveNet
- Esclusivo accesso multilingue alle voci DeepMind WaveNet che consentono di ottenere un'esperienza di sintesi vocale estremamente realistica.
- Supporto di testo e SSML
- Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia.
- Regolazione della velocità del parlato
- Personalizza la velocità del parlato rendendola fino a quattro volte superiore o inferiore rispetto a quella normale.
- Regolazione del tono di voce
- Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto all'output predefinito.
- Controllo del guadagno del volume
- Aumenta il volume dell'output fino a 16 ㏈ o riducilo fino a -96 ㏈.
- Flessibilità del formato audio
- Scegli tra una serie di formati audio disponibili tra cui mp3, Linear16 e Ogg Opus.
- Profili audio
- Ottimizza l'audio per il tipo di altoparlante da cui verrà riprodotta la voce, ad esempio cuffie o linee telefoniche.
Prezzi di Cloud Text-to-Speech
Sintesi vocale ad alta precisione
Il prezzo di Cloud Text-to-Speech viene calcolato per ogni milione di caratteri di testo elaborato, una volta superato il livello gratuito di 1 milione di caratteri. Per informazioni dettagliate, consulta la guida ai prezzi.
| Funzionalità | Livello gratuito mensile | Utilizzo a pagamento |
|---|---|---|
| Voci standard (non WaveNet) | Da 0 a 4 milioni di caratteri | $ 4,00/1 milione di caratteri |
| Voci WaveNet | Da 0 a 1 milione di caratteri | $ 16,00 USD/1 milione di caratteri |