Vai a
Text-to-Speech

IA di Text-to-Speech

Converti il testo in parlato dal suono naturale utilizzando un'API basata sulle migliori tecnologie IA di Google.

I nuovi clienti ricevono fino a 300 $ di crediti gratuiti per provare Text-to-Speech e altri prodotti Google Cloud.

  • Migliora le interazioni con i clienti con risposte intelligenti e realistiche

  • Coinvolgi gli utenti con l'interfaccia utente vocale nei tuoi dispositivi e nelle tue applicazioni

  • Personalizza la comunicazione in base alle preferenze dell'utente per voce e lingua

Vantaggi

Parlato ad alta fedeltà

Esegui il deployment delle tecnologie all'avanguardia di Google per generare un discorso con un'intonazione simile a quella umana. Realizzata sulla base dell'esperienza di sintesi vocale di DeepMind, l'API genera voci di qualità simile a quella umana.

La più ampia selezione di voci

Scegli tra un set di oltre 380 voci per più di 50 lingue e varianti, tra cui mandarino, hindi, spagnolo, arabo, russo e molte altre ancora. Scegli la voce più adatta a utente e applicazione.

Voce esclusiva

Crea una voce esclusiva per rappresentare il tuo brand in tutti i touchpoint con i clienti, invece di usare la stessa voce di tutte le altre organizzazioni.

Demo

Metti alla prova Text-to-Speech

Digita ciò che vuoi, seleziona una lingua, quindi fai clic su "SPEAK IT" (LEGGILO) per ascoltare.

Funzionalità principali

Funzionalità principali

Voci di viaggio (anteprima)

Crea agenti coinvolgenti utilizzando le più recenti voci di conversazione spontanee basate su AudioLM. Queste voci offrono audio di alta qualità, streaming a bassa latenza e parlato dal suono naturale, incorporando esitazioni umane e intonazione accurata.

Voci di Studio

Stupisci gli ascoltatori con contenuti narrati da professionisti registrati in un ambiente di qualità professionale. Assicurati di indossare le cuffie.

Ora puoi generare dialoghi con più persone per creare scenari più interattivi.

Voci Neural2

Internazionalizza la tua esperienza vocale grazie alle voci pronte all'uso basate sulla ricerca più recente di voce personalizzata.

Voce personalizzata

Addestra un modello vocale personalizzato utilizzando le tue registrazioni audio per creare una voce esclusiva dal suono più naturale per la tua organizzazione. Puoi definire e scegliere il profilo vocale più adeguato alla tua organizzazione e adattarlo rapidamente ai cambiamenti delle esigenze vocali senza dover registrare nuove frasi.

Supporto di testo e SSML

Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data/ora e altre istruzioni relative alla pronuncia.

Visualizza tutte le funzionalità

Documentazione

Documentazione

Google Cloud Basics

Nozioni di base su Text-to-Speech

Guida ai concetti fondamentali sull'utilizzo dell'API Text-to-Speech.
Quickstart

Guida rapida: utilizzo della riga di comando

Configura il tuo progetto e l'autorizzazione Google Cloud ed effettua una richiesta Text-to-Speech per creare audio dal testo.
Google Cloud Basics

Voci e lingue supportate

Scopri le guide e le risorse per questo prodotto.
Google Cloud Basics

Panoramica sulla voce personalizzata (beta)

Scopri come creare una voce esclusiva e dal suono più naturale utilizzando la voce personalizzata con le tue registrazioni audio di qualità professionale.
Tutorial

WaveNet e altre voci sintetiche

Scopri di più sulle diverse voci sintetiche disponibili per l'utilizzo in Text-to-Speech, incluse le voci premium di WaveNet.
Tutorial

Sintesi vocale di indirizzi con SSML

Questo tutorial illustra come usare il linguaggio SSML (Speech Synthesis Markup Language) per la sintesi vocale degli indirizzi contenuti in un file di testo.

Non trovi ciò che stai cercando?

Casi d'uso

Casi d'uso

Caso d'uso
Bot vocali nel contact center

Offri un'esperienza vocale migliore per l'assistenza clienti con i bot vocali su Dialogflow che generano una sintesi vocale dinamica, anziché una riproduzione audio statica e preregistrata. Utilizza voci sintetizzate di alta qualità per coinvolgere chi chiama e trasmettergli la sensazione di usufruire di un servizio accogliente e personalizzato.

Bot vocali nell'architettura di riferimento dei contact center
Caso d'uso
Generazione vocale nei dispositivi

Rendi più naturale la comunicazione con gli utenti consentendo ai tuoi dispositivi di parlare con voci simili a quella umana come un lettore di testo. Crea un'interfaccia utente vocale end-to-end insieme a Speech-to-Text e Natural Language per migliorare l'esperienza utente con interazioni semplici e coinvolgenti.

Generazione vocale nell'architettura di riferimento dei dispositivi
Caso d'uso
EPG (guide elettroniche ai programmi) accessibili

Consenti alle EPG di leggere facilmente i testi ad alta voce per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni. Prova la demo delle EPG.

Implementa facilmente la funzionalità di sintesi vocale nelle EPG per offrire una migliore esperienza utente ai tuoi clienti e soddisfare i requisiti di accessibilità per i tuoi servizi e le tue applicazioni. 

Architettura di riferimento che mostra in che modo l'API TTS può creare EPG accessibili

Tutte le funzionalità

Tutte le funzionalità

Voce personalizzata
Addestra un modello di sintesi vocale personalizzato utilizzando le tue registrazioni audio per creare una voce esclusiva dal suono più naturale per la tua organizzazione. Puoi definire e scegliere il profilo vocale più adeguato alla tua organizzazione e adattarlo rapidamente ai cambiamenti delle esigenze vocali senza dover registrare nuove frasi. Scopri di più.
Sintesi audio lunga
Sintetizza in modo asincrono fino a 1 milione di byte di input con la sintesi audio lunga.
Selezione di lingua e voce
Scegli da un'ampia selezione di oltre 220 voci per più di 40 lingue e varianti, con altre opzioni presto in arrivo.
Voci WaveNet
Sfrutta le oltre 90 voci WaveNet basate sulla ricerca innovativa di DeepMind per generare una sintesi vocale che colma in modo significativo il divario con le prestazioni umane.
Supporto di testo e SSML
Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia.
Regolazione del tono di voce
Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto al valore predefinito.
Regolazione della velocità del parlato
Regola la velocità del parlato rendendola fino a 4 volte superiore o inferiore rispetto a quella normale.
Controllo del guadagno del volume
Aumenta il volume dell'output fino a 16 db o riducilo fino a -96 db.
API REST e gRPC integrate

Si integrano facilmente con qualsiasi applicazione o dispositivo in grado di inviare una richiesta REST o gRPC, tra cui telefoni, computer, tablet e dispositivi IoT (ad esempio auto, TV e speaker).

Flessibilità del formato audio
Converti testo in MP3, Linear16, OGG Opus e in molti altri formati audio.
Profili audio
Ottimizza l'audio per il tipo di speaker da cui verrà riprodotta la tua voce, ad esempio cuffie o linee telefoniche.

Prezzi

Prezzi

I prezzi per l'API Text-to-Speech vengono calcolati in base al numero di caratteri da sintetizzare in audio inviati al servizio ogni mese. Il primo milione di caratteri per le voci WaveNet è gratuito ogni mese. Per le voci standard (non WaveNet), i primi 4 milioni di caratteri sono gratuiti ogni mese. Una volta superato il livello gratuito, il prezzo di Text-to-Speech viene calcolato per ogni milione di caratteri di testo elaborati.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Google Cloud.

Fai il prossimo passo

I nuovi clienti ricevono 300 $ di crediti gratuiti per provare Text-to-Speech e altri prodotti Google Cloud.

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
Console
Google Cloud