La traducción de medios traduce un archivo de audio o una transmisión de voz a texto de otro idioma. En esta página, se proporcionan muestras de código en las que se demuestra cómo traducir audio de transmisión a texto mediante las bibliotecas cliente de la traducción de medios.
Configura tu proyecto
Antes de poder usar la traducción de medios, debes configurar un proyecto de Google Cloud y habilitar la API de traducción de medios para ese proyecto.
- Accede a tu cuenta de Google Cloud. Si eres nuevo en Google Cloud, crea una cuenta para evaluar el rendimiento de nuestros productos en situaciones reales. Los clientes nuevos también obtienen $300 en créditos gratuitos para ejecutar, probar y, además, implementar cargas de trabajo.
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita la API de Media Translation.
-
Crear una cuenta de servicio:
-
En la consola de Google Cloud, ve a la página Crear cuenta de servicio.
Ve a Crear cuenta de servicio - Selecciona tu proyecto.
-
Ingresa un nombre en el campo Nombre de cuenta de servicio. La consola de Google Cloud completa el campo ID de cuenta de servicio en función de este nombre.
Opcional: en el campo Descripción de la cuenta de servicio, ingresa una descripción. Por ejemplo,
Service account for quickstart
. - Haz clic en Crear y continuar.
-
Para proporcionar acceso a tu proyecto, otorga el rol Project > Owner a tu cuenta de servicio.
Para otorgar el rol, busca la lista Seleccionar un rol y, luego, selecciona Project > Owner.
- Haga clic en Continuar.
-
Haz clic en Listo para terminar de crear la cuenta de servicio.
No cierres la ventana del navegador. La usarás en la próxima tarea.
-
-
Haz lo siguiente para crear una clave de cuenta de servicio:
- En la consola de Google Cloud, haz clic en la dirección de correo electrónico de la cuenta de servicio que creaste.
- Haga clic en Claves.
- Haz clic en Agregar clave y, luego, en Crear clave nueva.
- Haga clic en Crear. Se descargará un archivo de claves JSON en tu computadora.
- Haga clic en Cerrar.
-
Configura la variable de entorno
GOOGLE_APPLICATION_CREDENTIALS
en la ruta del archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a la sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable. - Instala Google Cloud CLI.
-
Para inicializar la CLI de gcloud, ejecuta el siguiente comando:
gcloud init
-
En la página del selector de proyectos de la consola de Google Cloud, selecciona o crea un proyecto de Google Cloud.
-
Asegúrate de que la facturación esté habilitada para tu proyecto de Google Cloud. Obtén información sobre cómo verificar si la facturación está habilitada en un proyecto.
-
Habilita la API de Media Translation.
-
Crear una cuenta de servicio:
-
En la consola de Google Cloud, ve a la página Crear cuenta de servicio.
Ve a Crear cuenta de servicio - Selecciona tu proyecto.
-
Ingresa un nombre en el campo Nombre de cuenta de servicio. La consola de Google Cloud completa el campo ID de cuenta de servicio en función de este nombre.
Opcional: en el campo Descripción de la cuenta de servicio, ingresa una descripción. Por ejemplo,
Service account for quickstart
. - Haz clic en Crear y continuar.
-
Para proporcionar acceso a tu proyecto, otorga el rol Project > Owner a tu cuenta de servicio.
Para otorgar el rol, busca la lista Seleccionar un rol y, luego, selecciona Project > Owner.
- Haga clic en Continuar.
-
Haz clic en Listo para terminar de crear la cuenta de servicio.
No cierres la ventana del navegador. La usarás en la próxima tarea.
-
-
Haz lo siguiente para crear una clave de cuenta de servicio:
- En la consola de Google Cloud, haz clic en la dirección de correo electrónico de la cuenta de servicio que creaste.
- Haga clic en Claves.
- Haz clic en Agregar clave y, luego, en Crear clave nueva.
- Haga clic en Crear. Se descargará un archivo de claves JSON en tu computadora.
- Haga clic en Cerrar.
-
Configura la variable de entorno
GOOGLE_APPLICATION_CREDENTIALS
en la ruta del archivo JSON que contiene la clave de tu cuenta de servicio. Esta variable solo se aplica a la sesión actual de shell. Por lo tanto, si abres una sesión nueva, deberás volver a configurar la variable. - Instala Google Cloud CLI.
-
Para inicializar la CLI de gcloud, ejecuta el siguiente comando:
gcloud init
- Instala la biblioteca cliente para tu lenguaje de preferencia.
Traduce la voz
En las siguientes muestras de código, se demuestra cómo traducir la voz de un archivo que contiene hasta cinco minutos de audio o de un micrófono en vivo. Consulta las prácticas recomendadas para obtener recomendaciones sobre cómo proporcionar datos de voz a fin de obtener la mayor exactitud en el reconocimiento.
Los pasos principales son los mismos independientemente de la fuente de audio:
Inicializa un cliente
SpeechTranslationServiceClient
a fin de usarlo para enviar solicitudes a la traducción de medios.Puedes volver a usar el mismo cliente para varias solicitudes.
Crea un objeto de solicitud
StreamingTranslateSpeechConfig
que especifique cómo procesar el audio.El objeto
StreamingTranslateSpeechConfig
consta de un objetoTranslateSpeechConfig
que proporciona información sobre el archivo de origen de audio y una propiedadsingle_utterance
que especifica si la traducción de medios continúa traduciendo cuando el emisor se detiene.El objeto
TranslateSpeechConfig
proporciona especificaciones técnicas de la fuente de audio (como la codificación y la tasa de muestreo), establece los idiomas de origen y de destino de la traducción (mediante sus códigos de idioma BCP-47) y define qué modelo de traducción se usa en la traducción de medios para la transcripción.Envía una secuencia de objetos de solicitud
StreamingTranslateSpeechRequest
.Debes enviar una secuencia de solicitudes para cada archivo de audio que deseas traducir. La primera solicitud proporciona el objeto
StreamingTranslateSpeechConfig
para la solicitud y las siguientes solicitudes proporcionan el contenido de audio en la transmisión.Recibe el objeto de respuesta
StreamingTranslateSpeechResult
.Mientras se recibe cualquier respuesta con un valor
text_translation_result.is_final
defalse
, el último resultado traducido reemplaza el resultado anterior.Cuando la traducción de medios tiene un resultado final, el campo
text_translation_result.is_final
se establece entrue
y cualquier resultado de traducción que se reciba después se agrega al resultado anterior. (En esta instancia, el resultado anterior no se reemplaza). Puedes generar la traducción completa y comenzar con una sección nueva para la siguiente parte de la transcripción y el audio correspondiente.Cuando se detenga el interlocutor, si el campo
single_utterance
se configura como verdadero en el objeto de solicitudStreamingTranslateSpeechConfig
, la traducción de medios mostrará un eventoEND_OF_SINGLE_UTTERANCE
paraspeech_event_type
en la respuesta. El cliente dejará de enviar solicitudes, pero seguirá recibiendo respuestas hasta que finalice la traducción.La transmisión tiene un límite de 5 minutos. Si superas este límite, se mostrará el error OUT_OF_RANGE.
Muestras de código
Traduce la voz de un archivo de audio
Java
Node.js
Python
Traduce la voz desde un micrófono
Java
Node.js
Python