Crea un modelo de voz personalizado para tus aplicaciones de voz

Puedes crear tus propios modelos de voz personalizados en la IU de Text-to-Speech.

Requisitos previos

Habilita la API de Text‑to‑Speech.
Graba tu audio según los requisitos de datos de entrenamiento.
Crear un bucket de Cloud Storage
Sube los archivos de audio a tu bucket nuevo en el formato que especifican los Requisitos de datos de entrenamiento (0001.wav, 0002.wav... 0200.wav, etcétera).

Entrena un nuevo modelo de voz personalizado

Abre la pestaña Voz personalizada en la IU de Text-to-Speech.
Haz clic en Crear cerca de la parte superior de la pantalla.
Asigna un nombre a tu modelo de voz.
Especifica el idioma en el menú desplegable de idiomas compatibles.
Selecciona el archivo CSV adecuado de la configuración del bucket en el paso 4 de los requisitos previos.
Sube una declaración de consentimiento del talento de voz. Ejemplo: “Soy el propietario de esta voz y doy mi consentimiento para que Google la use para crear un modelo de voz sintética”.
Haz clic en Crear para iniciar la creación del modelo. La creación del modelo puede tardar hasta 3 días.
Para ver el estado del trabajo de entrenamiento, consulta las notificaciones de tu consola en el encabezado de navegación de la parte superior derecha.

¿Qué sigue?

Cuando finalice el entrenamiento del modelo, los archivos de audio de salida de muestra estarán disponibles en la consola. Puedes usar estos archivos para realizar una evaluación inicial de la calidad del modelo. Si cumple con tus requisitos, comunícate con el equipo de ventas para obtener asistencia para la implementación del modelo. La implementación tarda entre dos y tres semanas, por lo que recomendamos evaluarla con rapidez y comunicarse con anticipación.