Text-to-Speech

Converti il testo in parlato dal suono naturale utilizzando un'API basata sulle tecnologie AI di Google.

Fai una prova gratuita
  • action/check_circle_24px Creato con Sketch.

    Migliora le interazioni con i clienti con risposte intelligenti e realistiche

  • action/check_circle_24px Creato con Sketch.

    Coinvolgi gli utenti con l'interfaccia utente vocale nei tuoi dispositivi e nelle tue applicazioni

  • action/check_circle_24px Creato con Sketch.

    Personalizza la comunicazione in base alle preferenze dell'utente per voce e lingua

Vantaggi

Parlato ad alta precisione

Esegui il deployment delle tecnologie all'avanguardia di Google per generare un discorso con un'intonazione simile a quella umana. Costruita sulla base dell'esperienza di sintesi vocale di DeepMind, l'API produce voci di qualità simile a quella umana.

La più ampia selezione di voci

Scegli tra un set di oltre 220 voci per più di 40 lingue e varianti. Scegli la voce più adatta a utente e applicazione.

Voce esclusiva

Crea una voce esclusiva per rappresentare il tuo brand in tutti i touchpoint con i clienti, invece di condividere una stessa voce con altre organizzazioni.

Demo

Metti alla prova Text-to-Speech

Digita ciò che vuoi, seleziona una lingua, quindi fai clic su "SPEAK IT" (LEGGILO) per ascoltare.

Funzionalità principali

Funzionalità principali

Voce personalizzata (beta)

Addestra un modello di sintesi vocale personalizzato utilizzando le tue registrazioni audio per creare una voce dal suono più naturale ed esclusiva per la tua organizzazione. Puoi definire e scegliere il profilo vocale più adeguato alla tua organizzazione e adattarlo rapidamente ai cambiamenti delle esigenze vocali senza dover registrare nuove frasi. Ulteriori informazioni

Voci WaveNet

Sfrutta le oltre 90 voci WaveNet basate sulla ricerca innovativa di DeepMind per generare un sistema di sintesi vocale che colma in modo significativo il divario con le prestazioni umane.

Ottimizzazione delle voci

Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto al valore predefinito. Regola la velocità del parlato rendendola fino a quattro volte superiore o inferiore rispetto a quella normale.

Supporto di testo e SSML

Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia.

Visualizza tutte le funzionalità

Novità

Novità

Iscriviti alle newsletter di Google Cloud per ricevere aggiornamenti sui prodotti, informazioni sugli eventi, offerte speciali e molto altro.

Documentazione

Documentazione

Nozioni di base su Google Cloud
Nozioni di base su Text-to-Speech

Guida ai concetti fondamentali sull'utilizzo dell'API Text-to-Speech.

Guida rapida
Guida rapida: utilizzo della riga di comando

Configura il tuo progetto e l'autorizzazione Google Cloud ed effettua una richiesta Text-to-Speech per creare audio dal testo.

Nozioni di base su Google Cloud
Voci e lingue supportate

Scopri quali lingue sono supportate da Text-to-Speech e ascolta esempi di voci disponibili per ognuna.

Nozioni di base su Google Cloud
Panoramica sulla voce personalizzata (beta)

Scopri come creare una voce esclusiva e dal suono più naturale utilizzando la voce personalizzata con le tue registrazioni audio di qualità professionale.

Tutorial
WaveNet e altre voci sintetiche

Scopri di più sulle diverse voci sintetiche disponibili per l'utilizzo in Text-to-Speech, incluse le voci premium di WaveNet.

Tutorial
Indirizzi parlanti con SSML

Questo tutorial illustra come usare il linguaggio SSML (Speech Synthesis Markup Language) per far parlare un file di testo di indirizzi.

Casi d'uso

Casi d'uso

Caso d'uso
Bot vocali nei contact center

Offri un'esperienza vocale migliore per l'assistenza clienti utilizzando la generazione vocale dinamica, anziché una riproduzione audio statica e preregistrata. Utilizza voci sintetizzate di alta qualità per coinvolgere chi chiama e trasmettergli la sensazione di usufruire di un servizio accogliente e personalizzato.

Bot vocali nell'architettura di riferimento dei contact center
Caso d'uso
Generazione vocale nei dispositivi

Abilita le comunicazioni naturali con i tuoi utenti consentendo ai tuoi dispositivi di parlare con voci simili a quella umana. Crea un'interfaccia utente vocale end-to-end insieme a Speech-to-Text e migliora l'esperienza utente con interazioni semplici e coinvolgenti.

Generazione vocale nell'architettura di riferimento dei dispositivi

Tutte le funzionalità

Tutte le funzionalità

Voce personalizzata (beta) Addestra un modello di sintesi vocale personalizzato utilizzando le tue registrazioni audio per creare una voce dal suono più naturale ed esclusiva per la tua organizzazione. Puoi definire e scegliere il profilo vocale più adeguato alla tua organizzazione e adattarlo rapidamente ai cambiamenti delle esigenze vocali senza dover registrare nuove frasi. Ulteriori informazioni
Selezione di lingua e voce Scegli tra un'ampia selezione di oltre 220 voci per più di 40 lingue e varianti, con altre lingue presto in arrivo.
Voci WaveNet Sfrutta le oltre 90 voci WaveNet basate sulla ricerca innovativa di DeepMind per generare un sistema di sintesi vocale che colma in modo significativo il divario con le prestazioni umane.
Supporto di testo e SSML Personalizza la tua sintesi vocale con tag SSML che ti consentono di aggiungere pause, numeri, formattazione di data e ora e altre istruzioni relative alla pronuncia.
Regolazione del tono di voce Personalizza il tono della voce selezionata, fino a 20 semitoni in più o in meno rispetto al valore predefinito.
Regolazione della velocità del parlato Regola la velocità del parlato rendendola fino a quattro volte superiore o inferiore rispetto a quella normale.
Controllo del guadagno del volume Aumenta il volume dell'output fino a 16 db o riducilo fino a -96 db.
API REST e gRPC integrate Si integra facilmente con qualsiasi applicazione o dispositivo in grado di inviare una richiesta REST o gRPC, tra cui telefoni, PC, tablet e dispositivi IoT (ad esempio auto, TV e speaker).
Flessibilità del formato audio Scegli tra una serie di formati audio disponibili tra cui MP3, Linear16 e Ogg Opus.
Profili audio Ottimizza l'audio per il tipo di speaker da cui verrà riprodotta la tua voce, ad esempio cuffie o linee telefoniche.

Prezzi

Prezzi

Il prezzo di Text-to-Speech viene calcolato per ogni milione di caratteri di testo elaborato, una volta superato il livello gratuito.

Se la valuta utilizzata per il pagamento è diversa da USD, si applicano i prezzi elencati nella tua valuta negli SKU di Google Cloud.