La API de Media Translation está obsoleta y ya no estará disponible en Google Cloud después del 1 de julio de 2024. Puedes replicar la funcionalidad de la API de Media Translation mediante una combinación de otros servicios de Google Cloud, como Cloud Speech-to-Text y la API de Cloud Translation.

Package google.cloud.mediatranslation.v1beta1

Índice

SpeechTranslationService (interfaz)
StreamingTranslateSpeechConfig (mensaje)
StreamingTranslateSpeechRequest (mensaje)
StreamingTranslateSpeechResponse (mensaje)
StreamingTranslateSpeechResponse.SpeechEventType (enum)
StreamingTranslateSpeechResult (mensaje)
StreamingTranslateSpeechResult.TextTranslationResult (mensaje)
TranslateSpeechConfig (mensaje)

SpeechTranslationService

Proporciona traducción de los tipos de medios y a estos.

StreamingTranslateSpeech

StreamingTranslateSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` Realiza la traducción de voz de transmisión bidireccional: recibe resultados mientras envía audio. Este método solo está disponible a través de la API de gRPC (no la de REST). Permisos de autorización Requiere el siguiente alcance de OAuth: `https://www.googleapis.com/auth/cloud-platform` Para obtener más información, consulta Descripción general de la autenticación.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Realiza la traducción de voz de transmisión bidireccional: recibe resultados mientras envía audio. Este método solo está disponible a través de la API de gRPC (no la de REST).

Permisos de autorización

Requiere el siguiente alcance de OAuth:

https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

StreamingTranslateSpeechConfig

Es la configuración que se usa para la traducción de transmisión.

Campos

Campos
`audio_config`	`TranslateSpeechConfig` Obligatorio. Es la configuración común para todos los siguientes contenidos de audio.
`single_utterance`	`bool` Opcional. Si es `false` o se omite, el sistema realizará una traducción continua (que continúa esperando el audio y procesándolo incluso si el usuario deja de hablar) hasta que el cliente cierre la transmisión de entrada (la API de gRPC) o hasta que se haya alcanzado el límite de tiempo máximo. Puede que muestre varios `StreamingTranslateSpeechResult` con la marca `is_final` establecida en `true`. Si es `true`, el traductor de voz detectará un solo enunciado hablado. Cuando detecte que el usuario se detuvo o dejó de hablar, mostrará un evento `END_OF_SINGLE_UTTERANCE` y dejará de traducir. Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero).
`stability`	`string` Opcional. Control de estabilidad para el texto de traducción de contenido multimedia. Ten en cuenta que la estabilidad y la velocidad se compensarían. El valor debe ser "LOW", "MEDIUM", "HIGH", la cadena vacía predeterminada se tratará como "LOW". (1) “LOW”: en el modo bajo, el servicio de traducción comenzará a realizar traducciones inmediatamente después de obtener la respuesta de reconocimiento. La velocidad será más rápida. (2) "MEDIUM": en el modo medio, el servicio de traducción verificará si la respuesta de reconocimiento es lo suficientemente estable o no, y solo traducirá la respuesta de reconocimiento que es probable que no cambie más adelante. (3) "HIGH": en el modo alto, el servicio de traducción esperará respuestas de reconocimiento más estables y, luego, comenzará a realizar la traducción. Además, las siguientes respuestas de reconocimiento no pueden modificar las respuestas de reconocimiento anteriores. Por lo tanto, puede afectar la calidad en algunas situaciones. La estabilidad “HIGH” generará respuestas “finales” con más frecuencia.

audio_config

TranslateSpeechConfig

Obligatorio. Es la configuración común para todos los siguientes contenidos de audio.

single_utterance

bool

Opcional. Si es false o se omite, el sistema realizará una traducción continua (que continúa esperando el audio y procesándolo incluso si el usuario deja de hablar) hasta que el cliente cierre la transmisión de entrada (la API de gRPC) o hasta que se haya alcanzado el límite de tiempo máximo. Puede que muestre varios StreamingTranslateSpeechResult con la marca is_final establecida en true.

Si es true, el traductor de voz detectará un solo enunciado hablado. Cuando detecte que el usuario se detuvo o dejó de hablar, mostrará un evento END_OF_SINGLE_UTTERANCE y dejará de traducir. Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero).

stability

string

Opcional. Control de estabilidad para el texto de traducción de contenido multimedia. Ten en cuenta que la estabilidad y la velocidad se compensarían. El valor debe ser "LOW", "MEDIUM", "HIGH", la cadena vacía predeterminada se tratará como "LOW". (1) “LOW”: en el modo bajo, el servicio de traducción comenzará a realizar traducciones inmediatamente después de obtener la respuesta de reconocimiento. La velocidad será más rápida. (2) "MEDIUM": en el modo medio, el servicio de traducción verificará si la respuesta de reconocimiento es lo suficientemente estable o no, y solo traducirá la respuesta de reconocimiento que es probable que no cambie más adelante. (3) "HIGH": en el modo alto, el servicio de traducción esperará respuestas de reconocimiento más estables y, luego, comenzará a realizar la traducción. Además, las siguientes respuestas de reconocimiento no pueden modificar las respuestas de reconocimiento anteriores. Por lo tanto, puede afectar la calidad en algunas situaciones. La estabilidad “HIGH” generará respuestas “finales” con más frecuencia.

StreamingTranslateSpeechRequest

Es el mensaje de nivel superior que envía el cliente para el método StreamingTranslateSpeech. Se envían varios mensajes StreamingTranslateSpeechRequest. El primer mensaje debe contener un mensaje streaming_config y no debe contener datos audio_content. Todos los mensajes posteriores deben contener datos audio_content y no deben contener un mensaje streaming_config.

Campos

Campos
Campo de unión `streaming_request`. Es la solicitud de transmisión, que es contenido o una configuración de transmisión. `streaming_request` puede ser solo uno de los siguientes:
`streaming_config`	`StreamingTranslateSpeechConfig` Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje `StreamingTranslateSpeechRequest` debe contener un mensaje `streaming_config`.
`audio_content`	`bytes` Son los datos de audio que se traducirán. Los fragmentos secuenciales de datos de audio se envían en mensajes `StreamingTranslateSpeechRequest` secuenciales. El primer mensaje `StreamingTranslateSpeechRequest` no debe contener datos `audio_content`, pero todos los mensajes `StreamingTranslateSpeechRequest` posteriores deben contener datos `audio_content`. Los bytes de audio deben estar codificados como se especifica en `StreamingTranslateSpeechConfig`. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura (no de Base64).

Campo de unión streaming_request. Es la solicitud de transmisión, que es contenido o una configuración de transmisión. streaming_request puede ser solo uno de los siguientes:

streaming_config

StreamingTranslateSpeechConfig

Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje StreamingTranslateSpeechRequest debe contener un mensaje streaming_config.

audio_content

bytes

Son los datos de audio que se traducirán. Los fragmentos secuenciales de datos de audio se envían en mensajes StreamingTranslateSpeechRequest secuenciales. El primer mensaje StreamingTranslateSpeechRequest no debe contener datos audio_content, pero todos los mensajes StreamingTranslateSpeechRequest posteriores deben contener datos audio_content. Los bytes de audio deben estar codificados como se especifica en StreamingTranslateSpeechConfig. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura (no de Base64).

StreamingTranslateSpeechResponse

Es una respuesta de traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.

Campos

Campos
`error`	`Status` Solo salida. Si se configura, muestra un mensaje `google.rpc.Status` que especifica el error de la operación.
`result`	`StreamingTranslateSpeechResult` Solo salida. Es el resultado de la traducción que se procesa en el momento (el valor is_final podría ser verdadero o falso).
`speech_event_type`	`SpeechEventType` Solo salida. Indica el tipo de evento de voz.

error

Status

Solo salida. Si se configura, muestra un mensaje google.rpc.Status que especifica el error de la operación.

result

StreamingTranslateSpeechResult

Solo salida. Es el resultado de la traducción que se procesa en el momento (el valor is_final podría ser verdadero o falso).

speech_event_type

SpeechEventType

Solo salida. Indica el tipo de evento de voz.

SpeechEventType

Indica el tipo de evento de voz.

Enums

SPEECH_EVENT_TYPE_UNSPECIFIED Indica que no se especificó ningún evento de voz.

END_OF_SINGLE_UTTERANCE Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero). Este evento solo se envía si single_utterance se estableció en true y no se usa de otra manera.

Enums
`SPEECH_EVENT_TYPE_UNSPECIFIED`	Indica que no se especificó ningún evento de voz.
`END_OF_SINGLE_UTTERANCE`	Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero). Este evento solo se envía si `single_utterance` se estableció en `true` y no se usa de otra manera.

StreamingTranslateSpeechResult

Es un resultado de la traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.

Campos

Campos
`recognition_result`	`string` Solo salida. El resultado del reconocimiento solo de depuración en el idioma original. Este campo es solo para depuración y se establecerá como una cadena vacía si no está disponible. Este es un detalle de la implementación y no será retrocompatible.
`text_translation_result`	`TextTranslationResult` Es el resultado de la traducción de texto.

recognition_result

string

Solo salida. El resultado del reconocimiento solo de depuración en el idioma original. Este campo es solo para depuración y se establecerá como una cadena vacía si no está disponible. Este es un detalle de la implementación y no será retrocompatible.

text_translation_result

TextTranslationResult

Es el resultado de la traducción de texto.

TextTranslationResult

Es el resultado de la traducción de texto.

Campos

Campos
`translation`	`string` Solo salida. Es la oración traducida.
`is_final`	`bool` Solo salida. Si es `false`, este `StreamingTranslateSpeechResult` representa un resultado provisional que puede cambiar. Si es `true`, esta es la última vez que el servicio de traducción mostrará este `StreamingTranslateSpeechResult` en particular. El traductor de la transmisión no mostrará más hipótesis para esta parte de la transcripción y su audio correspondiente.

translation

string

Solo salida. Es la oración traducida.

is_final

bool

Solo salida. Si es false, este StreamingTranslateSpeechResult representa un resultado provisional que puede cambiar. Si es true, esta es la última vez que el servicio de traducción mostrará este StreamingTranslateSpeechResult en particular. El traductor de la transmisión no mostrará más hipótesis para esta parte de la transcripción y su audio correspondiente.

TranslateSpeechConfig

Proporciona información a la traducción de voz que especifica cómo procesar la solicitud.

Campos
`audio_encoding`	`string` Obligatorio. Es la codificación de datos de audio. Los formatos admitidos son los siguientes: `linear16` Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal). `flac` `flac` (códec de audio gratuito sin pérdida) es la codificación recomendada debido a que no tiene pérdida, por lo que el reconocimiento no se ve comprometido, y requiere solo la mitad del ancho de banda de `linear16`. `mulaw` Son las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711. `amr` El códec adaptable de banda estrecha de varias tasas. `sample_rate_hertz` debe ser 8,000. `amr-wb` El códec adaptable de banda ancha de varias tasas. `sample_rate_hertz` debe ser 16,000. `ogg-opus` Los marcos de audio codificados en Opus en un contenedor Ogg. `sample_rate_hertz` debe ser 8000, 12000, 16000, 24000 o 48000. `mp3` Audio en MP3 Admite todas las tasas de bits de MP3 estándar (que van de 32 Kbps a 320 Kbps). Cuando se usa esta codificación, `sample_rate_hertz` debe coincidir con la tasa de muestreo del archivo que se usa.
`source_language_code`	`string` Obligatorio. Es el código del idioma de origen (BCP-47) del audio de entrada.
`target_language_code`	`string` Obligatorio. Es el código del idioma de destino (BCP-47) del resultado.
`sample_rate_hertz`	`int32` Opcional. Es la tasa de muestreo en hercios de los datos de audio. Estos son los valores válidos: desde 8,000 hasta 48,000. 16,000 es el valor óptimo. Para obtener los mejores resultados, establece la tasa de muestreo de la fuente de audio en 16,000 Hz. Si esto no es posible, usa la tasa de muestreo nativa de la fuente de audio (en lugar de volver a muestrear).
`model`	`string` Opcional. `google-provided-model/video` y `google-provided-model/enhanced-phone-call` son modelos premium. `google-provided-model/phone-call` no es un modelo premium.