Puoi creare i tuoi modelli vocali personalizzati all'interno della UI di Text-to-Speech.
Prerequisiti
- Attiva l'API Text-to-Speech.
- Registra l'audio rispettando i requisiti relativi ai dati di addestramento.
- Creare un bucket Cloud Storage.
- Carica i file audio nel nuovo bucket nel formato specificato dai Requisiti per i dati di addestramento (0001.wav, 0002.wav e così via). 0200.wav e così via).
Addestra un nuovo modello vocale personalizzato
- Apri la scheda Voce personalizzata nell'interfaccia utente di Text-to-Speech.
- Fai clic su Crea nella parte superiore dello schermo.
- Assegna un nome al modello vocale.
- Specifica la lingua dal menu a discesa delle lingue supportate.
- Seleziona il file CSV corretto dalla configurazione del bucket nel passaggio 4 dei prerequisiti.
- Carica una dichiarazione di consenso dell'artista vocale. Esempio: "Sono il proprietario di questa voce e acconsento che Google la utilizzi per creare un modello vocale sintetico".
- Fai clic su Crea per avviare la creazione del modello. La creazione del modello può richiedere fino a 3 giorni.
- Per visualizzare lo stato del job di addestramento, visualizza le notifiche della console nell'intestazione di navigazione in alto a destra.
Passaggi successivi
Al termine dell'addestramento del modello, i file audio di output di esempio saranno disponibili nella console. Puoi utilizzare questi file per eseguire una valutazione iniziale della qualità del modello. Se soddisfa i tuoi requisiti, contatta il team di vendita per ricevere assistenza per il deployment del modello. Il deployment richiede due o tre settimane, quindi ti consigliamo di effettuare una valutazione rapida e di comunicare il prima possibile.