Descripción general de Voz personalizada (beta)

La API de Cloud Text-to-Speech ahora ofrece Voz personalizada (Beta). Esta característica te permite entrenar un modelo de voz personalizado con tus propias grabaciones de audio de alta calidad para crear una voz única. Puedes usar tu voz personalizada para sintetizar audio mediante la API de Cloud Text-to-Speech. Actualmente, solo se admite el inglés estadounidense (en-US).

Para solicitar acceso a la función Voz personalizada, completa este formulario.

Datos de audio de entrenamiento proporcionados por el usuario

Con la función de voz personalizada, se entrega un modelo de texto a voz (TTS) que se asemeja a los datos de audio que proporcionaste. Google te enviará una secuencia de comandos para las grabaciones de voz después de que se apruebe tu caso práctico. Te sugerimos que encuentres y trabajes con un actor de voz que represente la voz personalizada que buscas. Debes grabar audio de calidad de estudio con tu actor de voz para usarlo como datos de entrenamiento. Si tus datos de entrenamiento no pasan la verificación interna y la validación de Google, es posible que tengas que volver a grabar o volver a enviar los datos después de corregir los problemas identificados.

Entrenamiento de modelos

Google tarda varias semanas en entrenar y evaluar tu modelo de voz personalizado. No hay compatibilidad de ANS con errores críticos de las funciones Beta.

Pruebas de aceptación de usuarios y evaluación

Google realiza una ronda inicial de la evaluación del modelo entrenado. Una vez que cumpla con nuestros criterios de calidad internos, te enviaremos algunas muestras de audio sin conexión que se registraron con tu modelo personalizado. Luego, debes seguir un proceso de prueba de aceptación del usuario para evaluar los resultados de audio y cerrarlo oficialmente en el modelo.