Documentación de Text-to-Speech

Voz personalizada

La API de Cloud Text-to-Speech ahora ofrece voces personalizadas. Esta función te permite entrenar un modelo de voz personalizado con tus propias grabaciones de audio de calidad de estudio para crear una voz única. Puedes usar tu voz personalizada para sintetizar audio con la API de Cloud Text-to-Speech.

Para implementar Voz personalizada, comunícate con un miembro del equipo de ventas

Voces personalizadas de muestra

Puedes escuchar ejemplos de voces personalizadas si escuchas los siguientes ejemplos. El primer ejemplo de audio es la voz original. Luego, puedes escuchar dos ejemplos de voz personalizada basados en el original.

Femenino: voz original Masculino: voz original
Femenino: ejemplo 1 de voz personalizada Masculino: ejemplo 1 de voz personalizada
Femenino: ejemplo 2 de voz personalizada Masculino: ejemplo 2 de voz personalizada

Datos de entrenamiento de audio que proporciona el usuario

La voz personalizada ofrece un modelo de Text-to-Speech (TTS) que es lo más similar posible a los datos de audio suministrados. Google te enviará un guion para las grabaciones de voz una vez que se apruebe tu caso de uso. Te sugerimos que encuentres y trabajes con un actor de voz que represente la voz personalizada que buscas. Debes grabar audio con calidad de estudio con tu actor de voz a fin de usarlo como datos de entrenamiento. Si tus datos de entrenamiento no pasan la verificación interna y la validación de Google, es posible que debas volver a registrar o volver a enviar los datos después de corregir los problemas identificados.

Entrenamiento de modelos

Google tarda varias semanas en entrenar y evaluar tu modelo de voz personalizado. No hay compatibilidad de ANS con errores críticos de las funciones Beta.

Pruebas de aceptación de usuarios y evaluación

Google realiza una ronda inicial de evaluación del modelo entrenado. Una vez que cumpla con nuestros criterios de calidad interna, te enviaremos algunas muestras de audio sin conexión grabadas mediante tu modelo personalizado. Luego, deberás seguir un proceso de prueba de aceptación del usuario para evaluar los resultados de audio y aprobar el modelo de forma oficial.