Indice
SpeechTranslationService
(interfaccia)StreamingTranslateSpeechConfig
(messaggio)StreamingTranslateSpeechRequest
(messaggio)StreamingTranslateSpeechResponse
(messaggio)StreamingTranslateSpeechResponse.SpeechEventType
(enumerazione)StreamingTranslateSpeechResult
(messaggio)StreamingTranslateSpeechResult.TextTranslationResult
(messaggio)TranslateSpeechConfig
(messaggio)
Servizio di traduzione vocale
Fornisce traduzioni da/verso tipi multimediali.
StreamingSpeechSpeech | |
---|---|
Esegue la traduzione bidirezionale della voce in streaming: riceve risultati durante l'invio di audio. Questo metodo è disponibile solo tramite l'API gRPC (non REST).
|
StreamingTranslateSpeechConfig
Configurazione utilizzata per la traduzione in streaming.
Campi | |
---|---|
audio_config |
Obbligatorio. La configurazione comune per tutti i seguenti contenuti audio. |
single_utterance |
(Facoltativo) Se Se |
StreamingTranslateSpeechRequest
Il messaggio di primo livello inviato dal client per il metodo StreamingTranslateSpeech
. Più messaggi StreamingTranslateSpeechRequest
inviati. Il primo messaggio deve contenere un messaggio streaming_config
e non deve contenere dati di audio_content
. Tutti i messaggi successivi devono contenere i dati di audio_content
e non devono contenere un messaggio di streaming_config
.
Campi | ||
---|---|---|
Campo Union streaming_request . La richiesta di streaming, ovvero una configurazione di streaming o dei contenuti. streaming_request può essere solo uno dei seguenti: |
||
streaming_config |
Fornisce informazioni al sistema di riconoscimento che specificano come elaborare la richiesta. Il primo messaggio |
|
audio_content |
I dati audio da tradurre. Un blocco sequenziale di dati audio viene inviato in messaggi |
StreamingTranslateSpeechResponse
Una risposta di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente elaborata.
Campi | |
---|---|
error |
Solo output. Se impostato, restituisce un messaggio |
result |
Solo output. Il risultato della traduzione attualmente in fase di elaborazione (is_final potrebbe essere true o false). |
speech_event_type |
Solo output. Indica il tipo di evento vocale. |
SpeechEventType
Indica il tipo di evento vocale.
Enum | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
Nessun evento vocale specificato. |
END_OF_SINGLE_UTTERANCE |
Questo evento indica che il server ha rilevato la fine del parlato dell'utente e non prevede alcun parlato aggiuntivo. Pertanto, il server non elaborerà audio aggiuntivo (anche se potrebbe restituire risultati aggiuntivi in seguito). Quando il client riceve l'evento 'END_OF_SINGLE_UTTERANCE' il client dovrebbe interrompere l'invio delle richieste. Tuttavia, i client dovrebbero continuare a ricevere le risposte rimanenti fino alla chiusura dello stream. Per costruire la frase completa in streaming, devi sostituire (se 'is_final' della risposta precedente è false) o aggiungere (se 'is_final' la risposta precedente è vera). Questo evento viene inviato solo se single_utterance è impostato su true e non viene utilizzato diversamente. |
StreamingTranslateSpeechResult
Risultato di traduzione vocale in streaming corrispondente a una parte dell'audio attualmente in elaborazione.
Campi | |
---|---|
text_translation_result |
Risultato di traduzione del testo. |
Risultato TextTranslation
Risultato di traduzione del testo.
Campi | |
---|---|
translation |
Solo output. La frase tradotta. |
is_final |
Solo output. Se |
Traduttore SpeechSpeechConfig
Fornisce informazioni alla traduzione vocale che specifica come elaborare la richiesta.
Campi | |
---|---|
audio_encoding |
Obbligatorio. Codifica dei dati audio. Formati supportati:
Esempi di bit-endian a 16 bit non compressi (Linear PCM).
Campioni a 8 bit che compongono campioni audio a 14 bit utilizzando GMU 711 PCMU/mu-law.
Codec a banda stretta adattiva a più tariffe.
Codec WideBand a banda larga adattiva. Il valore di
Frame audio codificati in formato Opus nel contenitore Ogg. |
source_language_code |
Obbligatorio. Codice lingua di origine (BCP-47) dell'audio in ingresso. |
target_language_code |
Obbligatorio. Codice lingua di destinazione (BCP-47) dell'output. |
sample_rate_hertz |
(Facoltativo) Frequenza di campionamento in Hertz dei dati audio. I valori validi sono: 8000-48000. Il valore 16000 è ottimale. Per ottenere risultati ottimali, imposta la frequenza di campionamento della sorgente audio su 16.000 Hz. Se non è possibile, utilizza la frequenza di campionamento nativa della sorgente audio (invece di ripetere il campionamento). |
model |
I valori consentiti sono facoltativi: Se non viene configurato, viene usato il modello google-provided-model/default. |