Documentazione di Text-to-Speech

Voce personalizzata

L'API Cloud Text-to-Speech ora offre voci personalizzate. Questa funzionalità consente di addestrare un modello vocale personalizzato utilizzando le tue registrazioni audio di qualità professionale per creare una voce unica. Puoi utilizzare la tua voce personalizzata per sintetizzare l'audio utilizzando l'API Cloud Text-to-Speech.

Per implementare la voce personalizzata, contatta un membro del team di vendita

Voci personalizzate di esempio

Puoi ascoltare esempi di voci personalizzate ascoltando i seguenti esempi. Il primo esempio audio è la voce originale. A questo punto, puoi ascoltare due esempi di voce personalizzata basati sull'originale.

Voce femminile - Voce originale Maschio - Voce originale
Voce femminile - Esempio 1 di voce personalizzata Voce maschile - Esempio di voce personalizzata 1
Voce femminile - Esempio 2 di voce personalizzata Voce maschile - Esempio 2 di voce personalizzata

Dati audio di addestramento forniti dall'utente

Voce personalizzata fornisce un modello Text-to-Speech (TTS) che suona il più simile possibile ai dati audio forniti. Google ti invierà uno script per le registrazioni vocali dopo l'approvazione del caso d'uso. Ti consigliamo di trovare e collaborare con un doppiatore che rappresenti la voce personalizzata che vuoi ottenere. Devi registrare audio di qualità professionale con il tuo doppiatore da utilizzare come dati di addestramento. Se i dati di addestramento non superano il controllo di verifica e convalida interno di Google, potresti dover registrare di nuovo o inviare nuovamente i dati dopo aver corretto i problemi identificati.

Addestramento del modello

Google impiega diverse settimane per addestrare e valutare il modello vocale personalizzato. Non è previsto il supporto SLA per i bug critici delle funzionalità beta.

Valutazione e test di accettazione utente

Google esegue un primo ciclo di valutazione del modello addestrato. Una volta superato il nostro criterio di qualità interno, ti invieremo alcuni sample audio offline registrati utilizzando il tuo modello personalizzato. Dovrai poi seguire una procedura di test di accettazione da parte dell'utente per valutare i risultati audio e approvare ufficialmente il modello.