Descripción general de Voz personalizada (beta)

La API de Cloud Text-to-Speech ahora ofrece Voz personalizada (Beta). Esta función te permite entrenar un modelo de voz personalizado con tus propias grabaciones de audio de calidad de estudio para crear una voz única. Puedes usar tu voz personalizada para sintetizar audio con la API de Cloud Text-to-Speech. Por el momento, solo se admite el inglés estadounidense (en-US).

Para solicitar acceso a la función Voz personalizada, completa este formulario.

Datos de entrenamiento de audio que proporciona el usuario

La voz personalizada ofrece un modelo de Text-to-Speech (TTS) que es lo más similar posible a los datos de audio suministrados. Google te enviará un guion para las grabaciones de voz una vez que se apruebe tu caso de uso. Te sugerimos que encuentres y trabajes con un actor de voz que represente la voz personalizada que buscas. Debes grabar audio con calidad de estudio con tu actor de voz a fin de usarlo como datos de entrenamiento. Si tus datos de entrenamiento no pasan la verificación interna y la validación de Google, es posible que debas volver a registrar o volver a enviar los datos después de corregir los problemas identificados.

Entrenamiento de modelos

Google tarda varias semanas en entrenar y evaluar tu modelo de voz personalizado. No hay compatibilidad de ANS con errores críticos de las funciones Beta.

Pruebas de aceptación de usuarios y evaluación

Google realiza una ronda inicial de evaluación del modelo entrenado. Una vez que cumpla con nuestros criterios de calidad interna, te enviaremos algunas muestras de audio sin conexión grabadas mediante tu modelo personalizado. Luego, deberás seguir un proceso de prueba de aceptación del usuario para evaluar los resultados de audio y aprobar el modelo de forma oficial.