Media Translation API는 지원 중단되었으며 2024년 7월 1일부터 Google Cloud에서 더 이상 사용할 수 없습니다. Cloud Speech-to-Text 및 Cloud Translation API와 같은 다른 Google Cloud 서비스를 조합하여 Media Translation API의 기능을 복제할 수 있습니다.

패키지 google.cloud.mediatranslation.v1beta1

색인

SpeechTranslationService(인터페이스)
StreamingTranslateSpeechConfig(메시지)
StreamingTranslateSpeechRequest(메시지)
StreamingTranslateSpeechResponse(메시지)
StreamingTranslateSpeechResponse.SpeechEventType(열거형)
StreamingTranslateSpeechResult(메시지)
StreamingTranslateSpeechResult.TextTranslationResult(메시지)
TranslateSpeechConfig(메시지)

SpeechTranslationService

미디어 유형의 번역을 제공합니다.

StreamingTranslateSpeech

StreamingTranslateSpeech
`rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)` 양방향 스트리밍 음성 번역을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다. 승인 범위 다음 OAuth 범위가 필요합니다. `https://www.googleapis.com/auth/cloud-platform` 자세한 내용은 인증 개요를 참조하세요.

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

양방향 스트리밍 음성 번역을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.

승인 범위

다음 OAuth 범위가 필요합니다.

https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

StreamingTranslateSpeechConfig

스트리밍 번역에 사용되는 구성입니다.

필드

필드
`audio_config`	`TranslateSpeechConfig` 필수. 다음 모든 오디오 콘텐츠의 공통 구성입니다.
`single_utterance`	`bool` 선택사항. `false`이거나 생략된 경우 시스템은 클라이언트가 입력 스트림(gRPC API)을 종료하거나 최대 제한 시간에 도달할 때까지 연속 번역을 수행합니다. 즉, 사용자가 말을 잠시 멈추더라도 계속 대기하면서 오디오를 처리합니다. `is_final` 플래그가 `true`로 설정된 여러 `StreamingTranslateSpeechResult`를 반환할 수 있습니다. `true`이면 음성 번역기가 단일 발화를 인식합니다. 음성 번역기는 사용자가 말을 잠시 멈추거나 끝낸 것으로 인식하면 `END_OF_SINGLE_UTTERANCE` 이벤트를 반환하고 번역을 중단합니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다.

audio_config

TranslateSpeechConfig

필수. 다음 모든 오디오 콘텐츠의 공통 구성입니다.

single_utterance

bool

선택사항. false이거나 생략된 경우 시스템은 클라이언트가 입력 스트림(gRPC API)을 종료하거나 최대 제한 시간에 도달할 때까지 연속 번역을 수행합니다. 즉, 사용자가 말을 잠시 멈추더라도 계속 대기하면서 오디오를 처리합니다. is_final 플래그가 true로 설정된 여러 StreamingTranslateSpeechResult를 반환할 수 있습니다.

true이면 음성 번역기가 단일 발화를 인식합니다. 음성 번역기는 사용자가 말을 잠시 멈추거나 끝낸 것으로 인식하면 END_OF_SINGLE_UTTERANCE 이벤트를 반환하고 번역을 중단합니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다.

StreamingTranslateSpeechRequest

StreamingTranslateSpeech 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다. 여러 StreamingTranslateSpeechRequest 메시지가 전송됩니다. 첫 번째 메시지는 streaming_config 메시지를 포함해야 하며 audio_content 데이터를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content 데이터를 포함해야 하며 streaming_config 메시지를 포함해서는 안 됩니다.

필드

필드
통합 필드 `streaming_request`. 스트리밍 구성 또는 콘텐츠인 스트리밍 요청입니다. `streaming_request`는 다음 중 하나여야 합니다.
`streaming_config`	`StreamingTranslateSpeechConfig` 인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 `StreamingTranslateSpeechRequest` 메시지는 `streaming_config` 메시지를 포함해야 합니다.
`audio_content`	`bytes` 번역할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 `StreamingTranslateSpeechRequest` 메시지로 전송됩니다. 첫 번째 `StreamingTranslateSpeechRequest` 메시지는 `audio_content` 데이터를 포함해서는 안 되며 이후의 모든 `StreamingTranslateSpeechRequest` 메시지는 `audio_content` 데이터를 포함해야 합니다. 오디오 바이트는 `StreamingTranslateSpeechConfig`에 지정된 대로 인코딩되어야 합니다. 참고: 모든 bytes 필드와 마찬가지로 프로토콜 버퍼는 base64가 아닌 순수 바이너리 표현을 사용합니다.

통합 필드 streaming_request. 스트리밍 구성 또는 콘텐츠인 스트리밍 요청입니다. streaming_request는 다음 중 하나여야 합니다.

streaming_config

StreamingTranslateSpeechConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 StreamingTranslateSpeechRequest 메시지는 streaming_config 메시지를 포함해야 합니다.

audio_content

bytes

번역할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 StreamingTranslateSpeechRequest 메시지로 전송됩니다. 첫 번째 StreamingTranslateSpeechRequest 메시지는 audio_content 데이터를 포함해서는 안 되며 이후의 모든 StreamingTranslateSpeechRequest 메시지는 audio_content 데이터를 포함해야 합니다. 오디오 바이트는 StreamingTranslateSpeechConfig에 지정된 대로 인코딩되어야 합니다. 참고: 모든 bytes 필드와 마찬가지로 프로토콜 버퍼는 base64가 아닌 순수 바이너리 표현을 사용합니다.

StreamingTranslateSpeechResponse

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 응답입니다.

필드

필드
`error`	`Status` 출력 전용. 설정된 경우 작업의 오류를 특정하는 `google.rpc.Status` 메시지를 반환합니다.
`result`	`StreamingTranslateSpeechResult` 출력 전용. 현재 처리 중인 번역 결과입니다(is_final은 true 또는 false일 수 있음).
`speech_event_type`	`SpeechEventType` 출력 전용. 음성 이벤트 유형을 나타냅니다.

error

Status

출력 전용. 설정된 경우 작업의 오류를 특정하는 google.rpc.Status 메시지를 반환합니다.

result

StreamingTranslateSpeechResult

출력 전용. 현재 처리 중인 번역 결과입니다(is_final은 true 또는 false일 수 있음).

speech_event_type

SpeechEventType

출력 전용. 음성 이벤트 유형을 나타냅니다.

SpeechEventType

음성 이벤트 유형을 나타냅니다.

열거형

SPEECH_EVENT_TYPE_UNSPECIFIED 음성 이벤트가 지정되지 않았습니다.

END_OF_SINGLE_UTTERANCE 이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다. 이 이벤트는 single_utterance가 true로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다.

열거형
`SPEECH_EVENT_TYPE_UNSPECIFIED`	음성 이벤트가 지정되지 않았습니다.
`END_OF_SINGLE_UTTERANCE`	이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다. 이 이벤트는 `single_utterance`가 `true`로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다.

StreamingTranslateSpeechResult

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 결과입니다.

필드

필드
`text_translation_result`	`TextTranslationResult` 텍스트 번역 결과입니다.

text_translation_result

TextTranslationResult

텍스트 번역 결과입니다.

TextTranslationResult

텍스트 번역 결과입니다.

필드

필드
`translation`	`string` 출력 전용. 번역된 문장입니다.
`is_final`	`bool` 출력 전용. `false`이면 이 `StreamingTranslateSpeechResult`는 변경될 수 있는 중간 결과를 나타냅니다. `true`이면 번역 서비스에서 이 특정 `StreamingTranslateSpeechResult`를 최종적으로 반환하는 경우입니다. 스트리밍 번역기는 텍스트 변환과 해당하는 오디오의 이 부분에 대해 더 이상 가설을 반환하지 않습니다.

translation

string

출력 전용. 번역된 문장입니다.

is_final

bool

출력 전용. false이면 이 StreamingTranslateSpeechResult는 변경될 수 있는 중간 결과를 나타냅니다. true이면 번역 서비스에서 이 특정 StreamingTranslateSpeechResult를 최종적으로 반환하는 경우입니다. 스트리밍 번역기는 텍스트 변환과 해당하는 오디오의 이 부분에 대해 더 이상 가설을 반환하지 않습니다.

TranslateSpeechConfig

음성 번역에 요청을 처리하는 방법을 지정하는 정보를 제공합니다.

필드
`audio_encoding`	`string` 필수. 오디오 데이터의 인코딩을 나타내며, 지원되는 형식은 다음과 같습니다. `linear16` 압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다. `flac` `flac`(무료 무손실 오디오 코덱)은 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 `linear16`의 약 절반에 불과하므로 권장되는 인코딩입니다. `mulaw` G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다. `amr` 적응형 다중 속도 협대역 코덱입니다. `sample_rate_hertz`는 8,000이어야 합니다. `amr-wb` 적응형 다중 속도 광대역 코덱입니다. `sample_rate_hertz`는 16,000이어야 합니다. `ogg-opus` Ogg 컨테이너의 Opus 인코딩 오디오 프레임입니다. `sample_rate_hertz`는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다.
`source_language_code`	`string` 필수. 입력 오디오의 출발어 코드(BCP-47)입니다.
`target_language_code`	`string` 필수. 출력의 도착어 코드(BCP-47)입니다.
`sample_rate_hertz`	`int32` 선택사항. 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값의 범위는 8,000-48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 그럴 수 없다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다.
`model`	`string` 선택사항. 허용되는 값은 `google-provided-model/default`, `google-provided-model/video`, `google-provided-model/phone-call`, `google-provided-model/enhanced-phone-call`입니다. 설정하지 않으면 google-provided-model/default가 사용됩니다.