Package google.cloud.mediatranslation.v1beta1

Índice

SpeechTranslationService

Proporciona traducción de los tipos de medios y a estos.

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Realiza la traducción de voz de transmisión bidireccional: recibe resultados mientras envía audio. Este método solo está disponible a través de la API de gRPC (no la de REST).

Permisos de autorización

Requiere el siguiente alcance de OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Para obtener más información, consulta Descripción general de la autenticación.

StreamingTranslateSpeechConfig

Es la configuración que se usa para la traducción de transmisión.

Campos
audio_config

TranslateSpeechConfig

Obligatorio. Es la configuración común para todos los siguientes contenidos de audio.

single_utterance

bool

Opcional. Si es false o se omite, el sistema realizará una traducción continua (que continúa esperando el audio y procesándolo incluso si el usuario deja de hablar) hasta que el cliente cierre la transmisión de entrada (la API de gRPC) o hasta que se haya alcanzado el límite de tiempo máximo. Puede que muestre varios StreamingTranslateSpeechResult con la marca is_final establecida en true.

Si es true, el traductor de voz detectará un solo enunciado hablado. Cuando detecte que el usuario se detuvo o dejó de hablar, mostrará un evento END_OF_SINGLE_UTTERANCE y dejará de traducir. Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero).

stability

string

Opcional. Control de estabilidad para el texto de traducción de contenido multimedia. Ten en cuenta que la estabilidad y la velocidad se compensarían. El valor debe ser "LOW", "MEDIUM", "HIGH", la cadena vacía predeterminada se tratará como "LOW". (1) “LOW”: en el modo bajo, el servicio de traducción comenzará a realizar traducciones inmediatamente después de obtener la respuesta de reconocimiento. La velocidad será más rápida. (2) "MEDIUM": en el modo medio, el servicio de traducción verificará si la respuesta de reconocimiento es lo suficientemente estable o no, y solo traducirá la respuesta de reconocimiento que es probable que no cambie más adelante. (3) "HIGH": en el modo alto, el servicio de traducción esperará respuestas de reconocimiento más estables y, luego, comenzará a realizar la traducción. Además, las siguientes respuestas de reconocimiento no pueden modificar las respuestas de reconocimiento anteriores. Por lo tanto, puede afectar la calidad en algunas situaciones. La estabilidad “HIGH” generará respuestas “finales” con más frecuencia.

StreamingTranslateSpeechRequest

Es el mensaje de nivel superior que envía el cliente para el método StreamingTranslateSpeech. Se envían varios mensajes StreamingTranslateSpeechRequest. El primer mensaje debe contener un mensaje streaming_config y no debe contener datos audio_content. Todos los mensajes posteriores deben contener datos audio_content y no deben contener un mensaje streaming_config.

Campos
Campo de unión streaming_request. Es la solicitud de transmisión, que es contenido o una configuración de transmisión. streaming_request puede ser solo uno de los siguientes:
streaming_config

StreamingTranslateSpeechConfig

Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje StreamingTranslateSpeechRequest debe contener un mensaje streaming_config.

audio_content

bytes

Son los datos de audio que se traducirán. Los fragmentos secuenciales de datos de audio se envían en mensajes StreamingTranslateSpeechRequest secuenciales. El primer mensaje StreamingTranslateSpeechRequest no debe contener datos audio_content, pero todos los mensajes StreamingTranslateSpeechRequest posteriores deben contener datos audio_content. Los bytes de audio deben estar codificados como se especifica en StreamingTranslateSpeechConfig. Nota: Al igual que con todos los campos de bytes, los buffers de protocolos usan una representación binaria pura (no de Base64).

StreamingTranslateSpeechResponse

Es una respuesta de traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.

Campos
error

Status

Solo salida. Si se configura, muestra un mensaje google.rpc.Status que especifica el error de la operación.

result

StreamingTranslateSpeechResult

Solo salida. Es el resultado de la traducción que se procesa en el momento (el valor is_final podría ser verdadero o falso).

speech_event_type

SpeechEventType

Solo salida. Indica el tipo de evento de voz.

SpeechEventType

Indica el tipo de evento de voz.

Enums
SPEECH_EVENT_TYPE_UNSPECIFIED Indica que no se especificó ningún evento de voz.
END_OF_SINGLE_UTTERANCE Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero). Este evento solo se envía si single_utterance se estableció en true y no se usa de otra manera.

StreamingTranslateSpeechResult

Es un resultado de la traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.

Campos
recognition_result

string

Solo salida. El resultado del reconocimiento solo de depuración en el idioma original. Este campo es solo para depuración y se establecerá como una cadena vacía si no está disponible. Este es un detalle de la implementación y no será retrocompatible.

text_translation_result

TextTranslationResult

Es el resultado de la traducción de texto.

TextTranslationResult

Es el resultado de la traducción de texto.

Campos
translation

string

Solo salida. Es la oración traducida.

is_final

bool

Solo salida. Si es false, este StreamingTranslateSpeechResult representa un resultado provisional que puede cambiar. Si es true, esta es la última vez que el servicio de traducción mostrará este StreamingTranslateSpeechResult en particular. El traductor de la transmisión no mostrará más hipótesis para esta parte de la transcripción y su audio correspondiente.

TranslateSpeechConfig

Proporciona información a la traducción de voz que especifica cómo procesar la solicitud.

Campos
audio_encoding

string

Obligatorio. Es la codificación de datos de audio. Los formatos admitidos son los siguientes:

  • linear16

Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal).

  • flac

flac (códec de audio gratuito sin pérdida) es la codificación recomendada debido a que no tiene pérdida, por lo que el reconocimiento no se ve comprometido, y requiere solo la mitad del ancho de banda de linear16.

  • mulaw

Son las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711.

  • amr

El códec adaptable de banda estrecha de varias tasas. sample_rate_hertz debe ser 8,000.

  • amr-wb

El códec adaptable de banda ancha de varias tasas. sample_rate_hertz debe ser 16,000.

  • ogg-opus

Los marcos de audio codificados en Opus en un contenedor Ogg. sample_rate_hertz debe ser 8000, 12000, 16000, 24000 o 48000.

  • mp3

Audio en MP3 Admite todas las tasas de bits de MP3 estándar (que van de 32 Kbps a 320 Kbps). Cuando se usa esta codificación, sample_rate_hertz debe coincidir con la tasa de muestreo del archivo que se usa.

source_language_code

string

Obligatorio. Es el código del idioma de origen (BCP-47) del audio de entrada.

target_language_code

string

Obligatorio. Es el código del idioma de destino (BCP-47) del resultado.

sample_rate_hertz

int32

Opcional. Es la tasa de muestreo en hercios de los datos de audio. Estos son los valores válidos: desde 8,000 hasta 48,000. 16,000 es el valor óptimo. Para obtener los mejores resultados, establece la tasa de muestreo de la fuente de audio en 16,000 Hz. Si esto no es posible, usa la tasa de muestreo nativa de la fuente de audio (en lugar de volver a muestrear).

model

string

Opcional. google-provided-model/video y google-provided-model/enhanced-phone-call son modelos premium. google-provided-model/phone-call no es un modelo premium.