Pacchetto google.cloud.mediatranslation.v1beta1

Indice

Servizio di traduzione vocale

Fornisce traduzioni da/verso tipi multimediali.

StreamingSpeechSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Esegue la traduzione bidirezionale della voce in streaming: riceve risultati durante l'invio di audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST).

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

  • https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la panoramica dell'autenticazione.

StreamingTranslateSpeechConfig

Configurazione utilizzata per la traduzione in streaming.

Campi
audio_config

TranslateSpeechConfig

Obbligatorio. La configurazione comune per tutti i seguenti contenuti audio.

single_utterance

bool

(Facoltativo) Se false viene omesso o meno, il sistema esegue la traduzione continua (continua ad attendere e elabora l'audio anche se l'utente mette in pausa la conversazione) fino a quando il client non chiude il flusso di input (API gRPC) o fino al raggiungimento del limite di tempo massimo. Puoi restituire più StreamingTranslateSpeechResult con il flag is_final impostato su true.

Se true, il traduttore di testo voce rileverà una singola frase pronunciata. Se rileva che l'utente ha messo in pausa o ha smesso di parlare, restituirà un evento END_OF_SINGLE_UTTERANCE e interromperà la traduzione. Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera).

StreamingTranslateSpeechRequest

Il messaggio di primo livello inviato dal client per il metodo StreamingTranslateSpeech. Più messaggi StreamingTranslateSpeechRequest inviati. Il primo messaggio deve contenere un messaggio streaming_config e non deve contenere dati di audio_content. Tutti i messaggi successivi devono contenere i dati di audio_content e non devono contenere un messaggio di streaming_config.

Campi
Campo Union streaming_request. La richiesta di streaming, ovvero una configurazione di streaming o dei contenuti. streaming_request può essere solo uno dei seguenti:
streaming_config

StreamingTranslateSpeechConfig

Fornisce informazioni al sistema di riconoscimento che specificano come elaborare la richiesta. Il primo messaggio StreamingTranslateSpeechRequest deve contenere un messaggio streaming_config.

audio_content

bytes

I dati audio da tradurre. Un blocco sequenziale di dati audio viene inviato in messaggi StreamingTranslateSpeechRequest sequenziali. Il primo messaggio StreamingTranslateSpeechRequest non deve contenere dati audio_content e tutti i messaggi StreamingTranslateSpeechRequest successivi devono contenere dati audio_content. I byte audio devono essere codificati come specificato in StreamingTranslateSpeechConfig. Nota: come per tutti i campi dei byte, i protobuffer utilizzano una rappresentazione binaria pura (non base64).

StreamingTranslateSpeechResponse

Una risposta di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente elaborata.

Campi
error

Status

Solo output. Se impostato, restituisce un messaggio google.rpc.Status che specifica l'errore per l'operazione.

result

StreamingTranslateSpeechResult

Solo output. Il risultato della traduzione attualmente in fase di elaborazione (is_final potrebbe essere true o false).

speech_event_type

SpeechEventType

Solo output. Indica il tipo di evento vocale.

SpeechEventType

Indica il tipo di evento vocale.

Enum
SPEECH_EVENT_TYPE_UNSPECIFIED Nessun evento vocale specificato.
END_OF_SINGLE_UTTERANCE Questo evento indica che il server ha rilevato la fine del parlato dell'utente e non prevede alcun parlato aggiuntivo. Pertanto, il server non elaborerà audio aggiuntivo (anche se potrebbe restituire risultati aggiuntivi in seguito). Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera). Questo evento viene inviato solo se single_utterance è impostato su true e non viene utilizzato diversamente.

StreamingTranslateSpeechResult

Risultato di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente in elaborazione.

Campi
text_translation_result

TextTranslationResult

Risultato di traduzione del testo.

Risultato TextTranslation

Risultato di traduzione del testo.

Campi
translation

string

Solo output. La frase tradotta.

is_final

bool

Solo output. Se false, questo StreamingTranslateSpeechResult rappresenta un risultato temporaneo che potrebbe cambiare. Se true, questa è l'ultima volta che il servizio di traduzione restituisce questo StreamingTranslateSpeechResult specifico, il traduttore di streaming non restituirà altre ipotesi per questa parte della trascrizione e dell'audio corrispondente.

Traduttore SpeechSpeechConfig

Fornisce informazioni alla traduzione vocale che specifica come elaborare la richiesta.

Campi
audio_encoding

string

Obbligatorio. Codifica dei dati audio. Formati supportati:

  • linear16

Esempi di bit-endian a 16 bit non compressi (Linear PCM).

  • flac

flac (Free Lossless Audio Codec) è la codifica consigliata perché non ha perdita di dati, pertanto non viene compromessa e richiede solo circa la metà della larghezza di banda di linear16.

  • mulaw

Campioni a 8 bit che compongono campioni audio a 14 bit utilizzando GMU 711 PCMU/mu-law.

  • amr

Codec a banda stretta adattiva a più tariffe. sample_rate_hertz deve essere 8000.

  • amr-wb

Codec WideBand a banda larga adattiva. Il valore di sample_rate_hertz deve essere 16000.

  • ogg-opus

Frame audio codificati in formato Opus nel contenitore Ogg. sample_rate_hertz deve essere uno tra 8000, 12000, 16000, 24000 o 48000.

source_language_code

string

Obbligatorio. Codice lingua di origine (BCP-47) dell'audio in ingresso.

target_language_code

string

Obbligatorio. Codice lingua di destinazione (BCP-47) dell'output.

sample_rate_hertz

int32

(Facoltativo) Frequenza di campionamento in Hertz dei dati audio. I valori validi sono: 8000-48000. Il valore 16000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16.000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (invece di ripetere il campionamento).

model

string

I valori consentiti sono facoltativi: google-provided-model/default, google-provided-model/video, google-provided-model/phone-call, google-provided-model/enhanced-phone-call

Se non viene configurato, viene usato il modello google-provided-model/default.