Índice
SpeechTranslationService
(interfaz)StreamingTranslateSpeechConfig
(mensaje)StreamingTranslateSpeechRequest
(mensaje)StreamingTranslateSpeechResponse
(mensaje)StreamingTranslateSpeechResponse.SpeechEventType
(enum)StreamingTranslateSpeechResult
(mensaje)StreamingTranslateSpeechResult.TextTranslationResult
(mensaje)TranslateSpeechConfig
(mensaje)
SpeechTranslationService
Proporciona traducción de los tipos de medios y a estos.
StreamingTranslateSpeech |
---|
Realiza la traducción de voz de transmisión bidireccional: recibe resultados mientras envía audio. Este método solo está disponible a través de la API de gRPC (no la de REST).
|
StreamingTranslateSpeechConfig
Es la configuración que se usa para la traducción de transmisión.
Campos | |
---|---|
audio_config |
Obligatorio. Es la configuración común para todos los siguientes contenidos de audio. |
single_utterance |
Opcional. Si es Si es |
stability |
Opcional. Control de estabilidad para el texto de traducción de contenido multimedia. Ten en cuenta que la estabilidad y la velocidad se compensarían. El valor debe ser "LOW", "MEDIUM", "HIGH", la cadena vacía predeterminada se tratará como "LOW". (1) “LOW”: en el modo bajo, el servicio de traducción comenzará a realizar traducciones inmediatamente después de obtener la respuesta de reconocimiento. La velocidad será más rápida. (2) "MEDIUM": en el modo medio, el servicio de traducción verificará si la respuesta de reconocimiento es lo suficientemente estable o no, y solo traducirá la respuesta de reconocimiento que es probable que no cambie más adelante. (3) "HIGH": en el modo alto, el servicio de traducción esperará respuestas de reconocimiento más estables y, luego, comenzará a realizar la traducción. Además, las siguientes respuestas de reconocimiento no pueden modificar las respuestas de reconocimiento anteriores. Por lo tanto, puede afectar la calidad en algunas situaciones. La estabilidad “HIGH” generará respuestas “finales” con más frecuencia. |
StreamingTranslateSpeechRequest
Es el mensaje de nivel superior que envía el cliente para el método StreamingTranslateSpeech
. Se envían varios mensajes StreamingTranslateSpeechRequest
. El primer mensaje debe contener un mensaje streaming_config
y no debe contener datos audio_content
. Todos los mensajes posteriores deben contener datos audio_content
y no deben contener un mensaje streaming_config
.
Campos | |
---|---|
Campo de unión streaming_request . Es la solicitud de transmisión, que es contenido o una configuración de transmisión. streaming_request puede ser solo uno de los siguientes: |
|
streaming_config |
Proporciona información al reconocedor que especifica cómo procesar la solicitud. El primer mensaje |
audio_content |
Son los datos de audio que se traducirán. Los fragmentos secuenciales de datos de audio se envían en mensajes |
StreamingTranslateSpeechResponse
Es una respuesta de traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.
Campos | |
---|---|
error |
Solo salida. Si se configura, muestra un mensaje |
result |
Solo salida. Es el resultado de la traducción que se procesa en el momento (el valor is_final podría ser verdadero o falso). |
speech_event_type |
Solo salida. Indica el tipo de evento de voz. |
SpeechEventType
Indica el tipo de evento de voz.
Enums | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Indica que no se especificó ningún evento de voz. |
END_OF_SINGLE_UTTERANCE |
Este evento indica que el servidor detectó el final del enunciado de voz del usuario y que no espera que siga hablando. Por lo tanto, el servidor no procesará audio adicional (aunque puede que muestre resultados adicionales de forma posterior). Cuando el cliente recibe el evento “END_OF_SINGLE_UTTERANCE”, debe dejar de enviar las solicitudes. Sin embargo, los clientes deben seguir recibiendo las respuestas restantes hasta que finalice la transmisión. Para crear la oración completa en forma de transmisión, se debe anular (si el valor “is_final” de la respuesta anterior es falso) o agregar (si es verdadero). Este evento solo se envía si single_utterance se estableció en true y no se usa de otra manera. |
StreamingTranslateSpeechResult
Es un resultado de la traducción de voz de transmisión que corresponde a una parte del audio que se procesa en el momento.
Campos | |
---|---|
recognition_result |
Solo salida. El resultado del reconocimiento solo de depuración en el idioma original. Este campo es solo para depuración y se establecerá como una cadena vacía si no está disponible. Este es un detalle de la implementación y no será retrocompatible. |
text_translation_result |
Es el resultado de la traducción de texto. |
TextTranslationResult
Es el resultado de la traducción de texto.
Campos | |
---|---|
translation |
Solo salida. Es la oración traducida. |
is_final |
Solo salida. Si es |
TranslateSpeechConfig
Proporciona información a la traducción de voz que especifica cómo procesar la solicitud.
Campos | |
---|---|
audio_encoding |
Obligatorio. Es la codificación de datos de audio. Los formatos admitidos son los siguientes:
Son las muestras de little-endian de 16 bits firmadas y sin comprimir (PCM lineal).
Son las muestras de 8 bits que comprimen las muestras de audio de 14 bits mediante la ley PCMU/mu-law de G.711.
El códec adaptable de banda estrecha de varias tasas.
El códec adaptable de banda ancha de varias tasas.
Los marcos de audio codificados en Opus en un contenedor Ogg.
Audio en MP3 Admite todas las tasas de bits de MP3 estándar (que van de 32 Kbps a 320 Kbps). Cuando se usa esta codificación, |
source_language_code |
Obligatorio. Es el código del idioma de origen (BCP-47) del audio de entrada. |
target_language_code |
Obligatorio. Es el código del idioma de destino (BCP-47) del resultado. |
sample_rate_hertz |
Opcional. Es la tasa de muestreo en hercios de los datos de audio. Estos son los valores válidos: desde 8,000 hasta 48,000. 16,000 es el valor óptimo. Para obtener los mejores resultados, establece la tasa de muestreo de la fuente de audio en 16,000 Hz. Si esto no es posible, usa la tasa de muestreo nativa de la fuente de audio (en lugar de volver a muestrear). |
model |
Opcional. |