Creare un modello vocale personalizzato per le applicazioni vocali

Puoi creare i tuoi modelli vocali personalizzati all'interno della UI di Text-to-Speech.

Prerequisiti

  1. Attiva l'API Text-to-Speech.
  2. Registra l'audio rispettando i requisiti relativi ai dati di addestramento.
  3. Creare un bucket Cloud Storage.
  4. Carica i file audio nel nuovo bucket nel formato specificato dai Requisiti per i dati di addestramento (0001.wav, 0002.wav e così via). 0200.wav e così via).

Addestra un nuovo modello vocale personalizzato

  1. Apri la scheda Voce personalizzata nell'interfaccia utente di Text-to-Speech.
  2. Fai clic su Crea nella parte superiore dello schermo.
  3. Assegna un nome al modello vocale.
  4. Specifica la lingua dal menu a discesa delle lingue supportate.
  5. Seleziona il file CSV corretto dalla configurazione del bucket nel passaggio 4 dei prerequisiti.
  6. Carica una dichiarazione di consenso dell'artista vocale. Esempio: "Sono il proprietario di questa voce e acconsento che Google la utilizzi per creare un modello vocale sintetico".
  7. Fai clic su Crea per avviare la creazione del modello. La creazione del modello può richiedere fino a 3 giorni.
  8. Per visualizzare lo stato del job di addestramento, visualizza le notifiche della console nell'intestazione di navigazione in alto a destra.

Passaggi successivi

Al termine dell'addestramento del modello, i file audio di output di esempio saranno disponibili nella console. Puoi utilizzare questi file per eseguire una valutazione iniziale della qualità del modello. Se soddisfa i tuoi requisiti, contatta il team di vendita per ricevere assistenza per il deployment del modello. Il deployment richiede due o tre settimane, quindi ti consigliamo di effettuare una valutazione rapida e di comunicare il prima possibile.