L'API Media Translation è stata ritirata e non sarà più disponibile su Google Cloud dopo il 1° luglio 2024. Puoi replicare la funzionalità dell'API Media Translation tramite una combinazione di altri servizi Google Cloud come Cloud Speech-to-Text e l'API Cloud Translation.

Pacchetto google.cloud.mediatranslation.v1beta1

Indice

SpeechTranslationService (interfaccia)
StreamingTranslateSpeechConfig (messaggio)
StreamingTranslateSpeechRequest (messaggio)
StreamingTranslateSpeechResponse (messaggio)
StreamingTranslateSpeechResponse.SpeechEventType (enumerazione)
StreamingTranslateSpeechResult (messaggio)
StreamingTranslateSpeechResult.TextTranslationResult (messaggio)
TranslateSpeechConfig (messaggio)

Servizio di traduzione vocale

Fornisce traduzioni da/verso tipi multimediali.

StreamingSpeechSpeech

StreamingSpeechSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` Esegue la traduzione bidirezionale della voce in streaming: riceve risultati durante l'invio di audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST). Ambiti di autorizzazione Richiede il seguente ambito OAuth: `https://www.googleapis.com/auth/cloud-platform` Per ulteriori informazioni, consulta la panoramica dell'autenticazione.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Esegue la traduzione bidirezionale della voce in streaming: riceve risultati durante l'invio di audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST).

Ambiti di autorizzazione

Richiede il seguente ambito OAuth:

https://www.googleapis.com/auth/cloud-platform

Per ulteriori informazioni, consulta la panoramica dell'autenticazione.

StreamingTranslateSpeechConfig

Configurazione utilizzata per la traduzione in streaming.

Campi

Campi
`audio_config`	`TranslateSpeechConfig` Obbligatorio. La configurazione comune per tutti i seguenti contenuti audio.
`single_utterance`	`bool` (Facoltativo) Se `false` viene omesso o meno, il sistema esegue la traduzione continua (continua ad attendere e elabora l'audio anche se l'utente mette in pausa la conversazione) fino a quando il client non chiude il flusso di input (API gRPC) o fino al raggiungimento del limite di tempo massimo. Puoi restituire più `StreamingTranslateSpeechResult` con il flag `is_final` impostato su `true`. Se `true`, il traduttore di testo voce rileverà una singola frase pronunciata. Se rileva che l'utente ha messo in pausa o ha smesso di parlare, restituirà un evento `END_OF_SINGLE_UTTERANCE` e interromperà la traduzione. Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera).

audio_config

TranslateSpeechConfig

Obbligatorio. La configurazione comune per tutti i seguenti contenuti audio.

single_utterance

bool

(Facoltativo) Se false viene omesso o meno, il sistema esegue la traduzione continua (continua ad attendere e elabora l'audio anche se l'utente mette in pausa la conversazione) fino a quando il client non chiude il flusso di input (API gRPC) o fino al raggiungimento del limite di tempo massimo. Puoi restituire più StreamingTranslateSpeechResult con il flag is_final impostato su true.

Se true, il traduttore di testo voce rileverà una singola frase pronunciata. Se rileva che l'utente ha messo in pausa o ha smesso di parlare, restituirà un evento END_OF_SINGLE_UTTERANCE e interromperà la traduzione. Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera).

StreamingTranslateSpeechRequest

Il messaggio di primo livello inviato dal client per il metodo StreamingTranslateSpeech. Più messaggi StreamingTranslateSpeechRequest inviati. Il primo messaggio deve contenere un messaggio streaming_config e non deve contenere dati di audio_content. Tutti i messaggi successivi devono contenere i dati di audio_content e non devono contenere un messaggio di streaming_config.

Campi

Campi
Campo Union `streaming_request`. La richiesta di streaming, ovvero una configurazione di streaming o dei contenuti. `streaming_request` può essere solo uno dei seguenti:
`streaming_config`	`StreamingTranslateSpeechConfig` Fornisce informazioni al sistema di riconoscimento che specificano come elaborare la richiesta. Il primo messaggio `StreamingTranslateSpeechRequest` deve contenere un messaggio `streaming_config`.
`audio_content`	`bytes` I dati audio da tradurre. Un blocco sequenziale di dati audio viene inviato in messaggi `StreamingTranslateSpeechRequest` sequenziali. Il primo messaggio `StreamingTranslateSpeechRequest` non deve contenere dati `audio_content` e tutti i messaggi `StreamingTranslateSpeechRequest` successivi devono contenere dati `audio_content`. I byte audio devono essere codificati come specificato in `StreamingTranslateSpeechConfig`. Nota: come per tutti i campi dei byte, i protobuffer utilizzano una rappresentazione binaria pura (non base64).

Campo Union streaming_request. La richiesta di streaming, ovvero una configurazione di streaming o dei contenuti. streaming_request può essere solo uno dei seguenti:

streaming_config

StreamingTranslateSpeechConfig

Fornisce informazioni al sistema di riconoscimento che specificano come elaborare la richiesta. Il primo messaggio StreamingTranslateSpeechRequest deve contenere un messaggio streaming_config.

audio_content

bytes

I dati audio da tradurre. Un blocco sequenziale di dati audio viene inviato in messaggi StreamingTranslateSpeechRequest sequenziali. Il primo messaggio StreamingTranslateSpeechRequest non deve contenere dati audio_content e tutti i messaggi StreamingTranslateSpeechRequest successivi devono contenere dati audio_content. I byte audio devono essere codificati come specificato in StreamingTranslateSpeechConfig. Nota: come per tutti i campi dei byte, i protobuffer utilizzano una rappresentazione binaria pura (non base64).

StreamingTranslateSpeechResponse

Una risposta di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente elaborata.

Campi

Campi
`error`	`Status` Solo output. Se impostato, restituisce un messaggio `google.rpc.Status` che specifica l'errore per l'operazione.
`result`	`StreamingTranslateSpeechResult` Solo output. Il risultato della traduzione attualmente in fase di elaborazione (is_final potrebbe essere true o false).
`speech_event_type`	`SpeechEventType` Solo output. Indica il tipo di evento vocale.

error

Status

Solo output. Se impostato, restituisce un messaggio google.rpc.Status che specifica l'errore per l'operazione.

result

StreamingTranslateSpeechResult

Solo output. Il risultato della traduzione attualmente in fase di elaborazione (is_final potrebbe essere true o false).

speech_event_type

SpeechEventType

Solo output. Indica il tipo di evento vocale.

SpeechEventType

Indica il tipo di evento vocale.

Enum

SPEECH_EVENT_TYPE_UNSPECIFIED Nessun evento vocale specificato.

END_OF_SINGLE_UTTERANCE Questo evento indica che il server ha rilevato la fine del parlato dell'utente e non prevede alcun parlato aggiuntivo. Pertanto, il server non elaborerà audio aggiuntivo (anche se potrebbe restituire risultati aggiuntivi in seguito). Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera). Questo evento viene inviato solo se single_utterance è impostato su true e non viene utilizzato diversamente.

Enum
`SPEECH_EVENT_TYPE_UNSPECIFIED`	Nessun evento vocale specificato.
`END_OF_SINGLE_UTTERANCE`	Questo evento indica che il server ha rilevato la fine del parlato dell'utente e non prevede alcun parlato aggiuntivo. Pertanto, il server non elaborerà audio aggiuntivo (anche se potrebbe restituire risultati aggiuntivi in seguito). Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera). Questo evento viene inviato solo se `single_utterance` è impostato su `true` e non viene utilizzato diversamente.

StreamingTranslateSpeechResult

Risultato di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente in elaborazione.

Campi

Campi
`text_translation_result`	`TextTranslationResult` Risultato di traduzione del testo.

text_translation_result

TextTranslationResult

Risultato di traduzione del testo.

Risultato TextTranslation

Risultato di traduzione del testo.

Campi

Campi
`translation`	`string` Solo output. La frase tradotta.
`is_final`	`bool` Solo output. Se `false`, questo `StreamingTranslateSpeechResult` rappresenta un risultato temporaneo che potrebbe cambiare. Se `true`, questa è l'ultima volta che il servizio di traduzione restituisce questo `StreamingTranslateSpeechResult` specifico, il traduttore di streaming non restituirà altre ipotesi per questa parte della trascrizione e dell'audio corrispondente.

translation

string

Solo output. La frase tradotta.

is_final

bool

Solo output. Se false, questo StreamingTranslateSpeechResult rappresenta un risultato temporaneo che potrebbe cambiare. Se true, questa è l'ultima volta che il servizio di traduzione restituisce questo StreamingTranslateSpeechResult specifico, il traduttore di streaming non restituirà altre ipotesi per questa parte della trascrizione e dell'audio corrispondente.

Traduttore SpeechSpeechConfig

Fornisce informazioni alla traduzione vocale che specifica come elaborare la richiesta.

Campi
`audio_encoding`	`string` Obbligatorio. Codifica dei dati audio. Formati supportati: `linear16` Esempi di bit-endian a 16 bit non compressi (Linear PCM). `flac` `flac` (Free Lossless Audio Codec) è la codifica consigliata perché non ha perdita di dati, pertanto non viene compromessa e richiede solo circa la metà della larghezza di banda di `linear16`. `mulaw` Campioni a 8 bit che compongono campioni audio a 14 bit utilizzando GMU 711 PCMU/mu-law. `amr` Codec a banda stretta adattiva a più tariffe. `sample_rate_hertz` deve essere 8000. `amr-wb` Codec WideBand a banda larga adattiva. Il valore di `sample_rate_hertz` deve essere 16000. `ogg-opus` Frame audio codificati in formato Opus nel contenitore Ogg. `sample_rate_hertz` deve essere uno tra 8000, 12000, 16000, 24000 o 48000.
`source_language_code`	`string` Obbligatorio. Codice lingua di origine (BCP-47) dell'audio in ingresso.
`target_language_code`	`string` Obbligatorio. Codice lingua di destinazione (BCP-47) dell'output.
`sample_rate_hertz`	`int32` (Facoltativo) Frequenza di campionamento in Hertz dei dati audio. I valori validi sono: 8000-48000. Il valore 16000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16.000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (invece di ripetere il campionamento).
`model`	`string` I valori consentiti sono facoltativi: `google-provided-model/default`, `google-provided-model/video`, `google-provided-model/phone-call`, `google-provided-model/enhanced-phone-call` Se non viene configurato, viene usato il modello google-provided-model/default.