Se usó la API de Cloud Translation para traducir esta página.

Conceptos básicos de Voice personalizada

Descripción general

La API de Cloud Text-to-Speech ahora ofrece Voz personalizada. Esta función te permite entrenar un modelo de voz personalizado con tus propias grabaciones de audio de calidad de estudio para crear una voz única. Puedes usar tu voz personalizada para sintetizar audio con la API de Cloud Text-to-Speech.

Datos de entrenamiento de audio que proporciona el usuario

La voz personalizada ofrece un modelo de Text-to-Speech (TTS) que es lo más similar posible a los datos de audio suministrados. Google te enviará un guion para las grabaciones de voz una vez que se apruebe tu caso de uso. Te sugerimos que selecciones y contrates a un actor de voz que represente la voz personalizada a la que deseas dirigirte. Debes grabar audio de calidad de estudio con el actor de voz para usarlo como datos de entrenamiento (consulta la página de requisitos de datos de entrenamiento a fin de obtener más información). Si los datos de entrenamiento no pasan los controles de calidad internos de Google, es posible que debas volver a registrar o enviar los datos después de solucionar los problemas identificados.

Entrenamiento de modelos

Google tarda varias semanas en entrenar tu modelo de voz personalizado.

Deployment

Después del entrenamiento, Google implementará el modelo de voz personalizado en los proyectos que elijas.

¿Qué sigue?

Implementa la función Voz personalizada mediante nuestra guía de inicio rápido.