Addestramento del modello

Ti consigliamo di trovare e collaborare con un doppiatore che rappresenti la voce personalizzata che vuoi ottenere. Devi registrare circa 10 secondi di audio con il tuo doppiatore da utilizzare come dati di addestramento. Devi anche registrare la dichiarazione di consenso dell'attore vocale. Ci vogliono meno di pochi minuti per addestrare e pubblicare il modello clonato. Non è previsto il supporto per i bug critici per le funzionalità pre-GA ai sensi del contratto di servizio.

Passaggio 1: crea i dati di addestramento per la clonazione

  1. Registra la dichiarazione di consenso: per rispettare le linee guida legali ed etiche per la clonazione vocale, registra la dichiarazione di consenso richiesta come file WAV mono, con codifica LINEAR16 e frequenza di campionamento di 24 kHz, nella lingua appropriata. (Sono il proprietario di questa voce e acconsento all'utilizzo di questa voce da parte di Google per creare un modello vocale sintetico.)
  2. Registra l'audio iniziale: utilizza il microfono del computer per registrare 10 secondi di audio come file WAV mono con codifica LINEAR16 e frequenza di campionamento di 24 kHz. Assicurati che non ci siano rumori di fondo durante la registrazione.
  3. Archivia i file audio: salva i file audio registrati in una posizione specifica di Cloud Storage.

Passaggio 2: crea un modello clonato

Puoi creare un progetto di clonazione tramite la console Text-to-Speech.

  1. Vai alla pagina Sintesi nella console Speech-to-Text.

  2. Inserisci il testo che verrà sintetizzato in voce e seleziona il codice della lingua di destinazione (si applica solo en-US).

  3. Seleziona la casella di controllo Voce personalizzata e fai clic su Genera chiave.

  4. Completa tutti i campi obbligatori nella sottoattività che si apre.

  5. Nel modulo di sintesi dovrebbe ora essere visualizzata una chiave di clonazione vocale:

    • Puoi salvare questa chiave per utilizzarla in futuro e saltare la procedura "Genera chiave"

  6. Attiva/disattiva la sezione Impostazioni avanzate, inserisci 24000 nel campo Frequenza di campionamento (Hertz) e fai clic su Sintetizza.

Al momento sintetizziamo solo voci clonate a 24 kHz.

Puoi scaricare o riprodurre immediatamente l'audio per sentire come suona.