Package google.cloud.mediatranslation.v1beta1

색인

SpeechTranslationService

미디어 유형의 번역을 제공합니다.

StreamingTranslateSpeech

rpc StreamingTranslateSpeech(StreamingTranslateSpeechRequest) returns (StreamingTranslateSpeechResponse)

양방향 스트리밍 음성 번역을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

StreamingTranslateSpeechConfig

스트리밍 번역에 사용되는 구성입니다.

필드
audio_config

TranslateSpeechConfig

필수. 다음 모든 오디오 콘텐츠의 공통 구성입니다.

single_utterance

bool

선택사항. false이거나 생략된 경우 시스템은 클라이언트가 입력 스트림(gRPC API)을 종료하거나 최대 제한 시간에 도달할 때까지 연속 번역을 수행합니다. 즉, 사용자가 말을 잠시 멈추더라도 계속 대기하면서 오디오를 처리합니다. is_final 플래그가 true로 설정된 여러 StreamingTranslateSpeechResult를 반환할 수 있습니다.

true이면 음성 번역기가 단일 발화를 인식합니다. 음성 번역기는 사용자가 말을 잠시 멈추거나 끝낸 것으로 인식하면 END_OF_SINGLE_UTTERANCE 이벤트를 반환하고 번역을 중단합니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다.

stability

string

선택사항입니다. 미디어 번역 텍스트의 안정성 제어. 안정성과 속도는 절충 관계입니다. 값은 'LOW', 'MEDIUM', 'HIGH'여야 하며 기본 빈 문자열은 'LOW'로 처리됩니다. (1) 'LOW': 낮은 모드에서 인식 응답을 받은 직후 번역 서비스가 번역을 시작합니다. 속도가 더 빨라집니다. (2) 'MEDIUM': 중간 모드에서 번역 서비스가 인식 응답이 충분히 안정적인지 확인하고 나중에 변경될 가능성이 없는 인식 응답만 번역합니다. (3) 'HIGH': 높은 모드에서 번역 서비스가 보다 안정적인 인식 응답을 기다린 후 번역을 시작합니다. 또한 다음 인식 응답은 이전 인식 응답을 수정할 수 없습니다. 따라서 상황에 따라 품질에 영향을 미칠 수 있습니다. 안정성이 'HIGH'인 경우 '최종' 응답이 더 자주 생성됩니다.

StreamingTranslateSpeechRequest

StreamingTranslateSpeech 메서드에 대해 클라이언트가 보낸 최상위 메시지입니다. 여러 StreamingTranslateSpeechRequest 메시지가 전송됩니다. 첫 번째 메시지는 streaming_config 메시지를 포함해야 하며 audio_content 데이터를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content 데이터를 포함해야 하며 streaming_config 메시지를 포함해서는 안 됩니다.

필드
통합 필드 streaming_request. 스트리밍 구성 또는 콘텐츠인 스트리밍 요청입니다. streaming_request는 다음 중 하나여야 합니다.
streaming_config

StreamingTranslateSpeechConfig

인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 StreamingTranslateSpeechRequest 메시지는 streaming_config 메시지를 포함해야 합니다.

audio_content

bytes

번역할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 StreamingTranslateSpeechRequest 메시지로 전송됩니다. 첫 번째 StreamingTranslateSpeechRequest 메시지는 audio_content 데이터를 포함해서는 안 되며 이후의 모든 StreamingTranslateSpeechRequest 메시지는 audio_content 데이터를 포함해야 합니다. 오디오 바이트는 StreamingTranslateSpeechConfig에 지정된 대로 인코딩되어야 합니다. 참고: 모든 bytes 필드와 마찬가지로 프로토콜 버퍼는 base64가 아닌 순수 바이너리 표현을 사용합니다.

StreamingTranslateSpeechResponse

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 응답입니다.

필드
error

Status

출력 전용. 설정된 경우 작업의 오류를 특정하는 google.rpc.Status 메시지를 반환합니다.

result

StreamingTranslateSpeechResult

출력 전용. 현재 처리 중인 번역 결과입니다(is_final은 true 또는 false일 수 있음).

speech_event_type

SpeechEventType

출력 전용. 음성 이벤트 유형을 나타냅니다.

SpeechEventType

음성 이벤트 유형을 나타냅니다.

열거형
SPEECH_EVENT_TYPE_UNSPECIFIED 음성 이벤트가 지정되지 않았습니다.
END_OF_SINGLE_UTTERANCE 이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다. 이 이벤트는 single_utterancetrue로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다.

StreamingTranslateSpeechResult

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 결과입니다.

필드
recognition_result

string

출력 전용입니다. 디버그 전용 인식 결과는 원래 언어로 표시됩니다. 이 필드는 디버그 전용이며 사용할 수 없는 경우 빈 문자열로 설정됩니다. 이는 구현 세부정보이며 이전 버전과 호환되지 않습니다.

text_translation_result

TextTranslationResult

텍스트 번역 결과입니다.

TextTranslationResult

텍스트 번역 결과입니다.

필드
translation

string

출력 전용. 번역된 문장입니다.

is_final

bool

출력 전용. false이면 이 StreamingTranslateSpeechResult는 변경될 수 있는 중간 결과를 나타냅니다. true이면 번역 서비스에서 이 특정 StreamingTranslateSpeechResult를 최종적으로 반환하는 경우입니다. 스트리밍 번역기는 텍스트 변환과 해당하는 오디오의 이 부분에 대해 더 이상 가설을 반환하지 않습니다.

TranslateSpeechConfig

음성 번역에 요청을 처리하는 방법을 지정하는 정보를 제공합니다.

필드
audio_encoding

string

필수. 오디오 데이터의 인코딩을 나타내며, 지원되는 형식은 다음과 같습니다.

  • linear16

압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다.

  • flac

flac(무료 무손실 오디오 코덱)은 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 linear16의 약 절반에 불과하므로 권장되는 인코딩입니다.

  • mulaw

G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다.

  • amr

적응형 다중 속도 협대역 코덱입니다. sample_rate_hertz는 8,000이어야 합니다.

  • amr-wb

적응형 다중 속도 광대역 코덱입니다. sample_rate_hertz는 16,000이어야 합니다.

  • ogg-opus

Ogg 컨테이너의 Opus 인코딩 오디오 프레임입니다. sample_rate_hertz는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다.

  • mp3

MP3 오디오. 32~320kbps 범위의 모든 표준 MP3 비트 전송률을 지원합니다. 이 인코딩을 사용할 때 sample_rate_hertz는 사용 중인 파일의 샘플링 레이트와 일치해야 합니다.

source_language_code

string

필수 항목입니다. 입력 오디오의 출발어 코드(BCP-47)입니다.

target_language_code

string

필수. 출력의 도착어 코드(BCP-47)입니다.

sample_rate_hertz

int32

선택사항. 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값의 범위는 8,000-48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다.

model

string

선택사항입니다. google-provided-model/videogoogle-provided-model/enhanced-phone-call은 프리미엄 모델입니다. google-provided-model/phone-call은 프리미엄 모델이 아닙니다.