La traducción de medios traduce un archivo de audio o una transmisión de voz a texto de otro idioma. En esta página, se proporcionan muestras de código en las que se demuestra cómo traducir audio de transmisión a texto mediante las bibliotecas cliente de la traducción de medios.
Configura tu proyecto
Antes de poder usar la traducción de medios, debes configurar un proyecto de Google Cloud y habilitar la API de traducción de medios para ese proyecto.
- Accede a tu Cuenta de Google.
Si todavía no tienes una cuenta, regístrate para obtener una nueva.
-
En la página del selector de proyectos de Google Cloud Console, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Cloud. Descubre cómo confirmar que tienes habilitada la facturación en un proyecto.
- Habilita la API Media Translation.
- Configura la autenticación
-
En Cloud Console, ve a la página Crea una clave de cuenta de servicio.
Ir a la página Crea una clave de la cuenta de servicio - En la lista Cuenta de servicio, selecciona Cuenta de servicio nueva.
- Ingresa un nombre en el campo Nombre de cuenta de servicio.
En la lista Función, selecciona Proyecto > Propietario.
- Haz clic en Crear. Se descargará un archivo JSON que contiene tus claves a tu computadora.
-
-
Configura la variable de entorno
GOOGLE_APPLICATION_CREDENTIALS
en la ruta del archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a la sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable. - Instala e inicializa el SDK de Cloud.
- Instala la biblioteca cliente para tu lenguaje de preferencia.
Traduce la voz
En las siguientes muestras de código, se demuestra cómo traducir la voz de un archivo que contiene hasta cinco minutos de audio o de un micrófono en vivo. Consulta las prácticas recomendadas para obtener recomendaciones sobre cómo proporcionar datos de voz a fin de obtener la mayor exactitud en el reconocimiento.
Los pasos principales son los mismos independientemente de la fuente de audio:
Inicializa un cliente
SpeechTranslationServiceClient
a fin de usarlo para enviar solicitudes a la traducción de medios.Puedes volver a usar el mismo cliente para varias solicitudes.
Crea un objeto de solicitud
StreamingTranslateSpeechConfig
que especifique cómo procesar el audio.El objeto
StreamingTranslateSpeechConfig
consta de un objetoTranslateSpeechConfig
que proporciona información sobre el archivo de origen de audio y unsingle_utterance
que especifica si la traducción multimedia continúa o no si se realiza la traducción.El objeto
TranslateSpeechConfig
proporciona especificaciones técnicas de la fuente de audio (como la codificación y la tasa de muestreo), establece los idiomas de origen y de destino de la traducción (mediante sus códigos de idioma BCP-47) y define qué modelo de traducción se usa en la traducción de medios para la transcripción.Envía una secuencia de objetos de solicitud
StreamingTranslateSpeechRequest
.Debes enviar una secuencia de solicitudes para cada archivo de audio que deseas traducir. La primera solicitud proporciona el objeto
StreamingTranslateSpeechConfig
para la solicitud y las siguientes solicitudes proporcionan el contenido de audio en la transmisión.Recibe el objeto de respuesta
StreamingTranslateSpeechResult
.Mientras se recibe cualquier respuesta con un valor
text_translation_result.is_final
defalse
, el resultado traducido más reciente reemplaza el resultado anterior.Cuando la traducción multimedia tiene un resultado final, el campo
text_translation_result.is_final
se establece entrue
y cualquier resultado de traducción recibido posteriormente se agrega al resultado anterior. (En esta instancia, el resultado anterior no se reemplaza). Puedes generar la traducción completada y comenzar con una nueva sección para la siguiente parte de la transcripción y el audio correspondiente.Cuando la bocina se haya detenido, si el campo
single_utterance
se establece como verdadero en el objeto de solicitudStreamingTranslateSpeechConfig
, Translation Translation mostrará un eventoEND_OF_SINGLE_UTTERANCE
paraspeech_event_type
en la respuesta El cliente dejará de enviar solicitudes, pero continuará recibiendo respuestas hasta que finalice la traducción.La transmisión tiene un límite de 5 minutos. Si superas este límite, se mostrará el error OUT_OF_RANGE.
Muestras de código
Traduce la voz de un archivo de audio
Java
Node.js
Python
Traduce la voz desde un micrófono
Java
Node.js
Python