색인
SpeechTranslationService
(인터페이스)StreamingTranslateSpeechConfig
(메시지)StreamingTranslateSpeechRequest
(메시지)StreamingTranslateSpeechResponse
(메시지)StreamingTranslateSpeechResponse.SpeechEventType
(열거형)StreamingTranslateSpeechResult
(메시지)StreamingTranslateSpeechResult.TextTranslationResult
(메시지)TranslateSpeechConfig
(메시지)
SpeechTranslationService
미디어 유형의 번역을 제공합니다.
StreamingTranslateSpeech |
---|
양방향 스트리밍 음성 번역을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.
|
StreamingTranslateSpeechConfig
스트리밍 번역에 사용되는 구성입니다.
필드 | |
---|---|
audio_config |
필수. 다음 모든 오디오 콘텐츠의 공통 구성입니다. |
single_utterance |
선택사항.
|
stability |
선택사항입니다. 미디어 번역 텍스트의 안정성 제어. 안정성과 속도는 절충 관계입니다. 값은 'LOW', 'MEDIUM', 'HIGH'여야 하며 기본 빈 문자열은 'LOW'로 처리됩니다. (1) 'LOW': 낮은 모드에서 인식 응답을 받은 직후 번역 서비스가 번역을 시작합니다. 속도가 더 빨라집니다. (2) 'MEDIUM': 중간 모드에서 번역 서비스가 인식 응답이 충분히 안정적인지 확인하고 나중에 변경될 가능성이 없는 인식 응답만 번역합니다. (3) 'HIGH': 높은 모드에서 번역 서비스가 보다 안정적인 인식 응답을 기다린 후 번역을 시작합니다. 또한 다음 인식 응답은 이전 인식 응답을 수정할 수 없습니다. 따라서 상황에 따라 품질에 영향을 미칠 수 있습니다. 안정성이 'HIGH'인 경우 '최종' 응답이 더 자주 생성됩니다. |
StreamingTranslateSpeechRequest
StreamingTranslateSpeech
메서드에 대해 클라이언트가 보낸 최상위 메시지입니다. 여러 StreamingTranslateSpeechRequest
메시지가 전송됩니다. 첫 번째 메시지는 streaming_config
메시지를 포함해야 하며 audio_content
데이터를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content
데이터를 포함해야 하며 streaming_config
메시지를 포함해서는 안 됩니다.
필드 | |
---|---|
통합 필드 streaming_request . 스트리밍 구성 또는 콘텐츠인 스트리밍 요청입니다. streaming_request 는 다음 중 하나여야 합니다. |
|
streaming_config |
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 |
audio_content |
번역할 오디오 데이터입니다. 오디오 데이터의 순차적인 청크가 순차적 |
StreamingTranslateSpeechResponse
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 응답입니다.
필드 | |
---|---|
error |
출력 전용. 설정된 경우 작업의 오류를 특정하는 |
result |
출력 전용. 현재 처리 중인 번역 결과입니다(is_final은 true 또는 false일 수 있음). |
speech_event_type |
출력 전용. 음성 이벤트 유형을 나타냅니다. |
SpeechEventType
음성 이벤트 유형을 나타냅니다.
열거형 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
음성 이벤트가 지정되지 않았습니다. |
END_OF_SINGLE_UTTERANCE |
이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 'END_OF_SINGLE_UTTERANCE' 이벤트를 수신한 후 요청 전송을 중지해야 합니다. 하지만 클라이언트는 스트림이 종료될 때까지 나머지 응답을 계속 수신해야 합니다. 스트리밍 방식으로 전체 문장을 구성하려면 재정의(이전 응답의 'is_final'이 false인 경우)하거나 추가(이전 응답의 'is_final'이 true인 경우)해야 합니다. 이 이벤트는 single_utterance 가 true 로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다. |
StreamingTranslateSpeechResult
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 번역 결과입니다.
필드 | |
---|---|
recognition_result |
출력 전용입니다. 디버그 전용 인식 결과는 원래 언어로 표시됩니다. 이 필드는 디버그 전용이며 사용할 수 없는 경우 빈 문자열로 설정됩니다. 이는 구현 세부정보이며 이전 버전과 호환되지 않습니다. |
text_translation_result |
텍스트 번역 결과입니다. |
TextTranslationResult
텍스트 번역 결과입니다.
필드 | |
---|---|
translation |
출력 전용. 번역된 문장입니다. |
is_final |
출력 전용. |
TranslateSpeechConfig
음성 번역에 요청을 처리하는 방법을 지정하는 정보를 제공합니다.
필드 | |
---|---|
audio_encoding |
필수. 오디오 데이터의 인코딩을 나타내며, 지원되는 형식은 다음과 같습니다.
압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다.
G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다.
적응형 다중 속도 협대역 코덱입니다.
적응형 다중 속도 광대역 코덱입니다.
Ogg 컨테이너의 Opus 인코딩 오디오 프레임입니다.
MP3 오디오. 32~320kbps 범위의 모든 표준 MP3 비트 전송률을 지원합니다. 이 인코딩을 사용할 때 |
source_language_code |
필수 항목입니다. 입력 오디오의 출발어 코드(BCP-47)입니다. |
target_language_code |
필수. 출력의 도착어 코드(BCP-47)입니다. |
sample_rate_hertz |
선택사항. 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값의 범위는 8,000-48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. |
model |
선택사항입니다. |