Entrenamiento de modelos

Te sugerimos que encuentres y trabajes con un actor de voz que represente la voz personalizada que buscas. Debes grabar alrededor de 10 segundos de audio con tu actor de voz para usarlos como datos de entrenamiento. También debes grabar la declaración de consentimiento del actor de voz. Tardamos menos de unos minutos en entrenar y entregar el modelo clonado. No hay compatibilidad de ANS con errores críticos de las funciones de la fase previa a la DG.

Paso 1: Crea datos de entrenamiento para la clonación

Registra la declaración de consentimiento: Para cumplir con los lineamientos legales y éticos de la clonación de voz, registra la declaración de consentimiento requerida en el idioma adecuado (Soy el propietario de esta voz y doy mi consentimiento para que Google la use para crear un modelo de voz sintética).
Grabar audio inicial: Usa el micrófono de la computadora para grabar 10 segundos de audio. Asegúrate de que no haya ruido de fondo durante la grabación.
Almacena archivos de audio: Guarda los archivos de audio grabados en una ubicación designada de Cloud Storage.

Paso 2: Crea un modelo clonado

Puedes crear un proyecto de clonación a través de la consola de Text-to-Speech.

Navega a la página Synthesize en la consola de Text-to-Speech.
Ingresa el texto que se sintetizará en voz y selecciona el código de idioma de destino (solo se aplica en-US).
Selecciona la casilla de verificación Voz personalizada y haz clic en Generar clave.
Completa todos los campos obligatorios en la subtarea que se abre.
Ahora debería aparecer una clave de clonación de voz en el formulario de síntesis:
- Puedes guardar esta clave para usarla en el futuro y omitir el proceso "Generar clave".
- Nota: No retenemos tu clave. Cualquier persona que tenga acceso a tu proyecto de Cloud puede usarlo para generar voz sintética con tu voz clonada, así que asegúrate de mantenerlo seguro.
Activa la sección Configuración avanzada, ingresa 24000 en el campo Sample rate (Hertz) y, luego, haz clic en Synthesize.

Por el momento, solo sintetizamos voces clonadas a 24 kHz.

Puedes descargar o reproducir el audio de inmediato para escuchar cómo suena.