A API Media Translation está obsoleta e não estará mais disponível no Google Cloud após 1º de julho de 2024. É possível replicar a funcionalidade da API Media Translation usando uma combinação de outros serviços do Google Cloud, como a Cloud Speech-to-Text e a API Cloud Translation.

Pacote google.cloud.mediatranslation.v1beta1

Index

SpeechTranslationService (interface)
StreamingTranslateSpeechConfig (mensagem)
StreamingTranslateSpeechRequest (mensagem)
StreamingTranslateSpeechResponse (mensagem)
StreamingTranslateSpeechResponse.SpeechEventType (enum)
StreamingTranslateSpeechResult (mensagem)
StreamingTranslateSpeechResult.TextTranslationResult (mensagem)
TranslateSpeechConfig (mensagem)

SpeechTranslationService

Fornece tradução de/para tipos de mídia.

StreamingTranslateSpeech

StreamingTranslateSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` Executa tradução de fala em streaming bidirecional: recebe resultados durante o envio de áudio. Este método só está disponível por meio da gRPC API (não REST). Escopos de autorização Requer o seguinte escopo OAuth: `https://www.googleapis.com/auth/cloud-platform` Para saber mais, consulte a Visão geral da autenticação.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

Executa tradução de fala em streaming bidirecional: recebe resultados durante o envio de áudio. Este método só está disponível por meio da gRPC API (não REST).

Escopos de autorização

Requer o seguinte escopo OAuth:

https://www.googleapis.com/auth/cloud-platform

Para saber mais, consulte a Visão geral da autenticação.

StreamingTranslateSpeechConfig

Configuração usada para tradução de streaming.

Campos

Campos
`audio_config`	`TranslateSpeechConfig` Obrigatório. A configuração comum para todos os conteúdos de áudio.
`single_utterance`	`bool` Opcional. Se for `false` ou omitido, o sistema realizará tradução contínua (continuando a aguardar e processar o áudio, mesmo que o usuário pause a fala) até que o cliente feche o stream de entrada (API gRPC) ou o limite de tempo seja atingido. Pode retornar vários `StreamingTranslateSpeechResult`s com a sinalização `is_final` definida como `true`. Se for `true`, o tradutor de fala detectará um único enunciado. Ao detectar que o usuário fez uma pausa ou parou de falar, ele retornará um evento `END_OF_SINGLE_UTTERANCE` e interromperá a tradução. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro).

audio_config

TranslateSpeechConfig

Obrigatório. A configuração comum para todos os conteúdos de áudio.

single_utterance

bool

Opcional. Se for false ou omitido, o sistema realizará tradução contínua (continuando a aguardar e processar o áudio, mesmo que o usuário pause a fala) até que o cliente feche o stream de entrada (API gRPC) ou o limite de tempo seja atingido. Pode retornar vários StreamingTranslateSpeechResults com a sinalização is_final definida como true.

Se for true, o tradutor de fala detectará um único enunciado. Ao detectar que o usuário fez uma pausa ou parou de falar, ele retornará um evento END_OF_SINGLE_UTTERANCE e interromperá a tradução. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro).

StreamingTranslateSpeechRequest

A mensagem de nível superior enviada pelo cliente para o método StreamingTranslateSpeech. Várias mensagens StreamingTranslateSpeechRequest são enviadas. A primeira mensagem precisa conter uma mensagem streaming_config e não deve conter dados audio_content. Todas as mensagens subsequentes precisam conter dados audio_content e não devem conter uma mensagem streaming_config.

Campos

Campos
Campo de união `streaming_request`. A solicitação de streaming, que é uma configuração ou um conteúdo de streaming. `streaming_request` pode ser apenas de um dos tipos a seguir:
`streaming_config`	`StreamingTranslateSpeechConfig` São fornecidas ao reconhecedor as informações que especificam como processar a solicitação. A primeira mensagem `StreamingTranslateSpeechRequest` precisa conter uma mensagem `streaming_config`.
`audio_content`	`bytes` Os dados de áudio a serem traduzidos. Os blocos sequenciais de dados de áudio são enviados em mensagens `StreamingTranslateSpeechRequest` sequenciais. A primeira mensagem `StreamingTranslateSpeechRequest` não pode conter dados `audio_content`, e todas as mensagens `StreamingTranslateSpeechRequest` subsequentes precisam conter dados `audio_content`. Os bytes de áudio precisam ser codificados conforme especificado em `StreamingTranslateSpeechConfig`. Observação: como em todos os campos de bytes, os protobuffers usam uma representação binária pura, não base64.

Campo de união streaming_request. A solicitação de streaming, que é uma configuração ou um conteúdo de streaming. streaming_request pode ser apenas de um dos tipos a seguir:

streaming_config

StreamingTranslateSpeechConfig

São fornecidas ao reconhecedor as informações que especificam como processar a solicitação. A primeira mensagem StreamingTranslateSpeechRequest precisa conter uma mensagem streaming_config.

audio_content

bytes

Os dados de áudio a serem traduzidos. Os blocos sequenciais de dados de áudio são enviados em mensagens StreamingTranslateSpeechRequest sequenciais. A primeira mensagem StreamingTranslateSpeechRequest não pode conter dados audio_content, e todas as mensagens StreamingTranslateSpeechRequest subsequentes precisam conter dados audio_content. Os bytes de áudio precisam ser codificados conforme especificado em StreamingTranslateSpeechConfig. Observação: como em todos os campos de bytes, os protobuffers usam uma representação binária pura, não base64.

StreamingTranslateSpeechResponse

Uma resposta de tradução de fala em streaming correspondente a uma parte do áudio processada no momento.

Campos

Campos
`error`	`Status` Apenas saída. Se definido, retorna uma mensagem `google.rpc.Status` que especifica o erro para a operação.
`result`	`StreamingTranslateSpeechResult` Apenas saída. O resultado da tradução que está sendo processada no momento (is_final pode ser verdadeiro ou falso).
`speech_event_type`	`SpeechEventType` Apenas saída. Indica o tipo de evento de fala.

error

Status

Apenas saída. Se definido, retorna uma mensagem google.rpc.Status que especifica o erro para a operação.

result

StreamingTranslateSpeechResult

Apenas saída. O resultado da tradução que está sendo processada no momento (is_final pode ser verdadeiro ou falso).

speech_event_type

SpeechEventType

Apenas saída. Indica o tipo de evento de fala.

SpeechEventType

Indica o tipo de evento de fala.

Enums

SPEECH_EVENT_TYPE_UNSPECIFIED Nenhum evento de fala especificado.

END_OF_SINGLE_UTTERANCE Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro). Este evento só é enviado se single_utterance tiver sido definido como true e não for usado de outra forma.

Enums
`SPEECH_EVENT_TYPE_UNSPECIFIED`	Nenhum evento de fala especificado.
`END_OF_SINGLE_UTTERANCE`	Esse evento indica que o servidor detectou o fim da fala do usuário e não espera nenhuma fala adicional. Portanto, o servidor não processará áudio adicional, ainda que possa retornar resultados adicionais posteriormente. Ao receber o evento "END_OF_SINGLE_UTTERANCE", o cliente deve parar de enviar as solicitações. No entanto, os clientes devem continuar recebendo as demais respostas até que o stream seja encerrado. Para construir a frase completa em modo streaming, é necessário substituir (se "is_final" da resposta anterior for falso) ou anexar (se "is_final" da resposta anterior for verdadeiro). Este evento só é enviado se `single_utterance` tiver sido definido como `true` e não for usado de outra forma.

StreamingTranslateSpeechResult

O resultado de uma tradução de fala em streaming correspondente a uma parte do áudio que está sendo processado.

Campos

Campos
`text_translation_result`	`TextTranslationResult` Resultado da tradução do texto.

text_translation_result

TextTranslationResult

Resultado da tradução do texto.

TextTranslationResult

Resultado da tradução do texto.

Campos

Campos
`translation`	`string` Apenas saída. A frase traduzida.
`is_final`	`bool` Apenas saída. Se for `false`, esse `StreamingTranslateSpeechResult` representará um resultado intermediário que pode mudar. Se for `true`, esta será a última vez que o serviço de tradução retornará esse `StreamingTranslateSpeechResult` específico. O tradutor de streaming não retornará mais hipóteses para essa parte da transcrição e do áudio correspondente.

translation

string

Apenas saída. A frase traduzida.

is_final

bool

Apenas saída. Se for false, esse StreamingTranslateSpeechResult representará um resultado intermediário que pode mudar. Se for true, esta será a última vez que o serviço de tradução retornará esse StreamingTranslateSpeechResult específico. O tradutor de streaming não retornará mais hipóteses para essa parte da transcrição e do áudio correspondente.

TranslateSpeechConfig

Fornece informações para a tradução de fala que especifica como processar a solicitação.

Campos
`audio_encoding`	`string` Obrigatório. Codificação de dados de áudio. Formatos compatíveis: `linear16` Amostras pouco elaboradas de 16 bits sem compactação (PCM Linear). `flac` `flac` (Free Lossless Audio Codec) é a codificação recomendada porque não tem perdas. Portanto, o reconhecimento não fica comprometido e requer apenas cerca de metade da largura de banda do `linear16`. `mulaw` Amostras de 8 bits resultantes do compand de amostras de áudio de 14 bits em que foi usado G.711 PCMU/mu-law. `amr` Codec de banda estreita multitaxa adaptável. `sample_rate_hertz` precisa ser 8.000. `amr-wb` Codec de banda larga multitaxa adaptável. `sample_rate_hertz` precisa ser 16.000. `ogg-opus` Frames de áudio codificados pelo Opus no contêiner Ogg). `sample_rate_hertz` precisa ser 8.000, 12.000, 16.000, 24.000 ou 48.000.
`source_language_code`	`string` Obrigatório. Código do idioma de origem (BCP-47) do áudio de entrada.
`target_language_code`	`string` Obrigatório. Código de idioma de destino (BCP-47) da saída.
`sample_rate_hertz`	`int32` Opcional. Taxa de amostragem em Hertz dos dados de áudio. Os valores válidos de: 8.000-48.000. 16.000 é o ideal. Para melhores resultados, defina a taxa de amostragem da fonte de áudio para 16.000 Hz. Se isso não for possível, use a taxa de amostragem nativa da fonte de áudio em vez de fazer nova amostragem.
`model`	`string` Opcional. Os valores permitidos são: `google-provided-model/default`, `google-provided-model/video`, `google-provided-model/phone-call`, `google-provided-model/enhanced-phone-call`, Se não for definido, será usado o modelo padrão/fornecido pelo Google.