색인
Speech
(인터페이스)AccessMetadata
(메시지)AccessMetadata.ConstraintType
(열거형)AutoDetectDecodingConfig
(메시지)BatchRecognizeFileMetadata
(메시지)BatchRecognizeFileResult
(메시지)BatchRecognizeMetadata
(메시지)BatchRecognizeRequest
(메시지)BatchRecognizeRequest.ProcessingStrategy
(열거형)BatchRecognizeResponse
(메시지)BatchRecognizeResults
(메시지)BatchRecognizeTranscriptionMetadata
(메시지)CloudStorageResult
(메시지)Config
(메시지)CreateCustomClassRequest
(메시지)CreatePhraseSetRequest
(메시지)CreateRecognizerRequest
(메시지)CustomClass
(메시지)CustomClass.ClassItem
(메시지)CustomClass.State
(열거형)DeleteCustomClassRequest
(메시지)DeletePhraseSetRequest
(메시지)DeleteRecognizerRequest
(메시지)ExplicitDecodingConfig
(메시지)ExplicitDecodingConfig.AudioEncoding
(열거형)GcsOutputConfig
(메시지)GetConfigRequest
(메시지)GetCustomClassRequest
(메시지)GetPhraseSetRequest
(메시지)GetRecognizerRequest
(메시지)InlineOutputConfig
(메시지)InlineResult
(메시지)LanguageMetadata
(메시지)ListCustomClassesRequest
(메시지)ListCustomClassesResponse
(메시지)ListPhraseSetsRequest
(메시지)ListPhraseSetsResponse
(메시지)ListRecognizersRequest
(메시지)ListRecognizersResponse
(메시지)LocationsMetadata
(메시지)ModelFeature
(메시지)ModelFeatures
(메시지)ModelMetadata
(메시지)NativeOutputFileFormatConfig
(메시지)OperationMetadata
(메시지)OutputFormatConfig
(메시지)PhraseSet
(메시지)PhraseSet.Phrase
(메시지)PhraseSet.State
(열거형)RecognitionConfig
(메시지)RecognitionFeatures
(메시지)RecognitionFeatures.MultiChannelMode
(열거형)RecognitionOutputConfig
(메시지)RecognitionResponseMetadata
(메시지)RecognizeRequest
(메시지)RecognizeResponse
(메시지)Recognizer
(메시지)Recognizer.State
(열거형)SpeakerDiarizationConfig
(메시지)SpeechAdaptation
(메시지)SpeechAdaptation.AdaptationPhraseSet
(메시지)SpeechRecognitionAlternative
(메시지)SpeechRecognitionResult
(메시지)SrtOutputFileFormatConfig
(메시지)StreamingRecognitionConfig
(메시지)StreamingRecognitionFeatures
(메시지)StreamingRecognitionFeatures.VoiceActivityTimeout
(메시지)StreamingRecognitionResult
(메시지)StreamingRecognizeRequest
(메시지)StreamingRecognizeResponse
(메시지)StreamingRecognizeResponse.SpeechEventType
(열거형)TranscriptNormalization
(메시지)TranscriptNormalization.Entry
(메시지)UndeleteCustomClassRequest
(메시지)UndeletePhraseSetRequest
(메시지)UndeleteRecognizerRequest
(메시지)UpdateConfigRequest
(메시지)UpdateCustomClassRequest
(메시지)UpdatePhraseSetRequest
(메시지)UpdateRecognizerRequest
(메시지)VttOutputFileFormatConfig
(메시지)WordInfo
(메시지)
음성
음성 스크립트 작성 및 리소스 관리를 사용 설정합니다.
BatchRecognize |
---|
일괄 비동기 음성 인식을 수행합니다. 오디오 파일 N개가 포함된 요청을 보내고 스크립트 작성이 완료된 시간을 확인하기 위해 폴링할 수 있는 장기 실행 작업을 수신합니다.
|
CreateCustomClass |
---|
|
CreatePhraseSet |
---|
|
CreateRecognizer |
---|
|
DeleteCustomClass |
---|
|
DeletePhraseSet |
---|
|
DeleteRecognizer |
---|
|
GetConfig |
---|
요청된
|
GetCustomClass |
---|
요청된
|
GetPhraseSet |
---|
요청된
|
GetRecognizer |
---|
요청된
|
ListCustomClasses |
---|
CustomClasses를 나열합니다.
|
ListPhraseSets |
---|
PhraseSets를 나열합니다.
|
ListRecognizers |
---|
인식기를 나열합니다.
|
인식 |
---|
동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.
|
StreamingRecognize |
---|
양방향 스트리밍 음성 인식을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.
|
UndeleteCustomClass |
---|
|
UndeletePhraseSet |
---|
|
UndeleteRecognizer |
---|
|
UpdateConfig |
---|
|
UpdateCustomClass |
---|
|
UpdatePhraseSet |
---|
|
UpdateRecognizer |
---|
|
메타데이터 액세스
특정 리전에 대한 액세스 메타데이터입니다. 지정된 프로젝트의 조직 정책이 특정 리전을 허용하지 않는 경우에 이를 적용할 수 있습니다.
필드 | |
---|---|
constraint_type |
적용되는 여러 유형의 제약조건을 설명합니다. |
제약조건 유형
리전에 적용할 수 있는 다양한 유형의 제약조건을 설명합니다.
열거형 | |
---|---|
CONSTRAINT_TYPE_UNSPECIFIED |
지정되지 않은 제약조건이 적용되었습니다. |
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT |
프로젝트의 조직 정책이 지정된 리전을 허용하지 않습니다. |
AutoDetectDecodingConfig
이 유형에는 필드가 없습니다.
자동으로 감지된 디코딩 매개변수. 다음 인코딩에 지원됩니다.
WAV_LINEAR16: WAV 컨테이너의 부호 있는 16비트 little-endian PCM 샘플
WAV_MULAW: WAV 컨테이너의 8비트 압축 mulaw 샘플
WAV_ALAW: WAV 컨테이너의 8비트 압축 alaw 샘플
RFC4867_5_AMR: rfc4867.5 헤더가 있는 AMR 프레임
RFC4867_5_AMRWB: rfc4867.5 헤더가 있는 AMR-WB 프레임
FLAC: '네이티브 FLAC' 컨테이너 형식의 FLAC 프레임
MP3: 선택적 (무시된) ID3 메타데이터가 있는 MPEG 오디오 프레임
OGG_OPUS: Ogg 컨테이너의 Opus 오디오 프레임
WEBM_OPUS: WebM 컨테이너의 Opus 오디오 프레임
M4A: M4A 오디오 형식
BatchRecognizeFileMetadata
BatchRecognize의 배치에 있는 단일 파일에 대한 메타데이터입니다.
필드 | |
---|---|
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
통합 필드 audio_source . Google Cloud Storage URI에 해당하는 오디오 소스입니다. audio_source 는 다음 중 하나여야 합니다. |
|
uri |
오디오 파일의 Cloud Storage URI입니다. |
일괄 인식 파일 결과
단일 파일의 최종 결과입니다.
필드 | |
---|---|
error |
발생한 경우 오류입니다. |
metadata |
|
uri |
지원이 중단되었습니다. 대신 |
transcript |
지원이 중단되었습니다. 대신 |
통합 필드
|
|
cloud_storage_result |
Cloud Storage에 기록된 인식 결과. 이는 |
inline_result |
인식 결과. 이는 |
일괄 인식 메타데이터
BatchRecognize
의 작업 메타데이터입니다.
필드 | |
---|---|
transcription_metadata |
제공된 파일 이름을 해당 파일의 스크립트 작성 메타데이터로 매핑합니다. |
BatchRecognizeRequest
BatchRecognize
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
recognizer |
필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 |
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
files[] |
ASR용 파일 메타데이터가 포함된 오디오 파일. 지정할 수 있는 최대 파일 수는 5개입니다. |
recognition_output_config |
각 파일의 스크립트를 출력할 위치에 대한 구성 옵션입니다. |
processing_strategy |
이 요청에 사용할 처리 전략입니다. |
ProcessingStrategy
일괄 요청에 사용 가능한 처리 전략입니다.
열거형 | |
---|---|
PROCESSING_STRATEGY_UNSPECIFIED |
처리 전략의 기본값입니다. 요청이 수신되는 즉시 처리됩니다. |
DYNAMIC_BATCHING |
이를 선택하면 사용률이 낮은 기간 동안 가격 할인으로 요청을 처리합니다. 요청이 24시간 이내에 처리됩니다. |
일괄 인식 응답
장기 실행 Operation
으로 패키징된 BatchRecognize
의 응답 메시지입니다.
필드 | |
---|---|
results |
파일 이름을 해당 파일의 최종 결과로 매핑합니다. |
total_billed_duration |
가능한 경우 해당 요청에 대해 청구되는 오디오 초입니다. |
일괄 인식 결과
BatchRecognize 스크립트의 Cloud Storage 출력 유형입니다. 이 proto는 이 API의 어디에서도 반환되지 않지만 Cloud Storage 스크립트는 이 proto 직렬화가 되고 그에 따라 파싱되어야 합니다.
필드 | |
---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
metadata |
인식에 관한 메타데이터입니다. |
BatchRecognizeTranscriptionMetadata
단일 파일의 스크립트 작성에 관한 메타데이터(예: 진행률 비율)입니다.
필드 | |
---|---|
progress_percent |
지금까지 스크립트 작성된 파일의 양입니다. |
error |
발생한 경우 오류입니다. |
uri |
인식 결과가 기록될 Cloud Storage URI입니다. |
CloudStorageResult
Cloud Storage에 기록된 최종 결과입니다.
필드 | |
---|---|
uri |
인식 결과가 기록된 Cloud Storage URI입니다. |
vtt_format_uri |
인식 결과가 VTT 형식 자막으로 기록된 Cloud Storage URI입니다. |
srt_format_uri |
인식 결과가 SRT 형식 자막으로 기록된 Cloud Storage URI입니다. |
구성
Speech-to-Text API의 구성을 나타내는 메시지입니다. 여기에는 수신 데이터를 암호화하는 선택적 KMS 키가 포함됩니다.
필드 | |
---|---|
name |
출력 전용입니다. 식별자. 구성 리소스의 이름입니다. 위치당 프로젝트당 정확히 하나의 구성 리소스가 있습니다. 예상되는 형식은 |
kms_key_name |
선택사항입니다. 저장된 Speech-to-Text 리소스를 암호화하는 데 사용되는 선택적인 KMS 키 이름입니다. 이 키를 업데이트해도 이 키를 사용하는 기존 리소스는 암호화되지 않습니다. 새 리소스만 이 키를 사용하여 암호화됩니다. 예상되는 형식은 |
update_time |
출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다. |
CreateCustomClassRequest
CreateCustomClass
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
custom_class |
필수 항목입니다. 만들 CustomClass입니다. |
validate_only |
설정한 경우 요청을 검증하고 CustomClass를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
custom_class_id |
CustomClass에 사용할 ID이며, CustomClass의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 CustomClass가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CreatePhraseSetRequest
CreatePhraseSet
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
phrase_set |
필수 항목입니다. 만들 PhraseSet입니다. |
validate_only |
설정한 경우 요청을 검증하고 PhraseSet를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
phrase_set_id |
PhraseSet에 사용할 ID이며, PhraseSet의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 PhraseSet가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CreateRecognizerRequest
CreateRecognizer
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
recognizer |
필수 항목입니다. 만들 인식기입니다. |
validate_only |
설정한 경우 요청을 검증하고 인식기를 미리 봅니다. 하지만 실제로 만들지는 않습니다. |
recognizer_id |
인식기에 사용할 ID이며, 인식기의 리소스 이름의 마지막 구성 요소가 됩니다. 이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다. |
parent |
필수 항목입니다. 이 인식기가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 |
CustomClass
음성 인식 편향을 위한 CustomClass입니다. 오디오에 나타날 수 있는 일반적인 개념이나 테마를 나타내는 단어 또는 구문 집합을 정의하는 데 사용됩니다(예: 여객선 이름 목록).
필드 | |
---|---|
name |
출력 전용입니다. 식별자. CustomClass의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. 시스템에서 할당된 CustomClass의 고유 식별자입니다. |
display_name |
선택사항입니다. 사용자가 설정할 수 있고 사람이 읽을 수 있는 CustomClass 이름입니다. 63자(영문 기준) 이하여야 합니다. |
items[] |
클래스 항목의 컬렉션입니다. |
state |
출력 전용입니다. CustomClass 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제를 요청한 시간입니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제되는 시간입니다. |
annotations |
선택사항입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 CustomClass가 업데이트되는 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. CustomClass가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. CustomClass가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
ClassItem
클래스의 항목입니다.
필드 | |
---|---|
value |
클래스 항목의 값입니다. |
상태
CustomClass의 수명 주기를 정의하는 상태 집합입니다.
열거형 | |
---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
CustomClass가 삭제되었습니다. |
DeleteCustomClassRequest
DeleteCustomClass
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제할 CustomClass의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 CustomClass를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 CustomClass를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
DeletePhraseSetRequest
DeletePhraseSet
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제할 PhraseSet의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 PhraseSet를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
DeleteRecognizerRequest
DeleteRecognizer
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제할 인식기의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제된 인식기를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다. |
allow_missing |
true로 설정되어 있고 인식기를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음). |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
ExplicitDecodingConfig
명시적으로 지정된 디코딩 매개변수입니다.
필드 | |
---|---|
encoding |
필수 항목입니다. 인식을 위해 전송된 오디오 데이터의 인코딩입니다. |
sample_rate_hertz |
인식을 위해 전송된 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값은 8,000~48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. 다음 인코딩에 지원됩니다.
|
audio_channel_count |
인식을 위해 전송된 오디오 데이터에 있는 채널 수입니다. 다음 인코딩에 지원됩니다.
허용되는 최댓값은 8입니다. |
AudioEncoding
지원되는 오디오 데이터 인코딩입니다.
열거형 | |
---|---|
AUDIO_ENCODING_UNSPECIFIED |
기본값 이 값은 사용되지 않습니다. |
LINEAR16 |
헤더 없는 16비트 부호 little-endian PCM 샘플 |
MULAW |
헤더 없는 8비트 압축 mulaw 샘플 |
ALAW |
헤더 없는 8비트 압축 alaw 샘플 |
GcsOutputConfig
Cloud Storage의 출력 구성입니다.
필드 | |
---|---|
uri |
인식 결과가 기록되는 Cloud Storage URI 프리픽스입니다. |
GetConfigRequest
GetConfig
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 검색할 구성의 이름입니다. 위치당 프로젝트당 정확히 하나의 구성 리소스가 있습니다. 예상되는 형식은 |
GetCustomClassRequest
GetCustomClass
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 검색할 CustomClass의 이름입니다. 예상되는 형식은 |
GetPhraseSetRequest
GetPhraseSet
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 검색할 PhraseSet의 이름입니다. 예상되는 형식은 |
GetRecognizerRequest
GetRecognizer
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 검색할 인식기의 이름입니다. 예상되는 형식은 |
InlineOutputConfig
이 유형에는 필드가 없습니다.
인라인 응답의 출력 구성입니다.
InlineResult
인식 응답에서 인라인으로 반환된 최종 결과입니다.
필드 | |
---|---|
transcript |
오디오 파일의 스크립트입니다. |
vtt_captions |
VTT 형식의 자막으로 된 오디오 파일의 스크립트입니다. |
srt_captions |
SRT 형식의 자막으로 된 오디오 파일의 스크립트입니다. |
LanguageMetadata
특정 리전에서 사용할 수 있는 언어에 대한 메타데이터입니다. 현재는 각 언어에서 사용할 수 있는 모델만 표시됩니다.
필드 | |
---|---|
models |
언어 지도(언어 코드) -> 모델 |
ListCustomClassesRequest
ListCustomClasses
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
parent |
필수 항목입니다. 나열할 CustomClass 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
요청당 결과 수. 유효한 page_size 범위는 0~100까지입니다. page_size가 0이거나 지정되지 않으면 페이지 크기 5가 선택됩니다. 페이지 크기가 100을 초과하면 100으로 강제 변환됩니다. 호출은 요청된 페이지 크기보다 더 적은 결과를 반환할 수 있습니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListCustomClassesResponse
ListCustomClasses
메서드에 대한 응답 메시지입니다.
필드 | |
---|---|
custom_classes[] |
요청된 CustomClasses 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
ListPhraseSetsRequest
ListPhraseSets
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
parent |
필수 항목입니다. 나열할 PhraseSet 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
반환할 최대 PhraseSets 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 PhraseSets가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListPhraseSetsResponse
ListPhraseSets
메서드에 대한 응답 메시지입니다.
필드 | |
---|---|
phrase_sets[] |
요청된 PhraseSets의 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
ListRecognizersRequest
ListRecognizers
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
parent |
필수 항목입니다. 나열할 인식기의 프로젝트 및 위치입니다. 예상되는 형식은 |
page_size |
반환할 최대 인식기 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 인식기가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다. |
page_token |
이전 페이지를 매길 때 |
show_deleted |
삭제된 리소스를 표시할지 여부입니다. |
ListRecognizersResponse
ListRecognizers
메서드에 대한 응답 메시지입니다.
필드 | |
---|---|
recognizers[] |
요청한 인식기의 목록입니다. |
next_page_token |
다음 페이지를 검색하기 위해 |
LocationsMetadata
STT V2용 Locations API의 기본 메타데이터입니다. 현재는 언어, 모델, 특성에 대한 메타데이터입니다.
필드 | |
---|---|
languages |
언어 -> 모델 -> 특성의 계층 구조에 표시된 사용 가능한 언어, 모델, 특성에 대한 정보입니다. |
access_metadata |
리전 및 지정된 프로젝트의 액세스 메타데이터에 대한 정보입니다. |
ModelFeature
모델의 단일 특성을 나타냅니다. 특성이 recognizer
인 경우 특성의 release_state는 모델의 release_state를 나타냅니다.
필드 | |
---|---|
feature |
특성의 이름(참고: 특성은 |
release_state |
특성의 출시 상태 |
ModelFeatures
모델에 속하는 특성의 컬렉션을 나타냅니다.
필드 | |
---|---|
model_feature[] |
모델의 모든 특성을 포함하는 반복되는 필드입니다. |
ModelMetadata
특정 언어의 특정 리전에 있는 모델에 대한 메타데이터입니다. 현재는 모델의 특성일 뿐입니다.
필드 | |
---|---|
model_features |
모델 이름 맵 -> 해당 모델의 특성 |
NativeOutputFileFormatConfig
이 유형에는 필드가 없습니다.
직렬화된 BatchRecognizeResults
proto의 출력 구성입니다.
OperationMetadata
장기 실행 작업의 메타데이터를 나타냅니다.
필드 | |
---|---|
create_time |
작업이 생성된 시간입니다. |
update_time |
작업이 마지막으로 업데이트된 시간입니다. |
resource |
작업 대상의 리소스 경로입니다. |
method |
작업을 트리거한 메서드입니다. |
kms_key_name |
작업 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
작업 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
progress_percent |
작업의 진행률입니다. 값 범위는 0~100입니다. 값이 100이면 작업이 완료된 것입니다. |
통합 필드 request . 작업을 생성한 요청입니다. request 는 다음 중 하나여야 합니다. |
|
batch_recognize_request |
작업을 생성한 BatchRecognizeRequest입니다. |
create_recognizer_request |
작업을 생성한 CreateRecognizerRequest입니다. |
update_recognizer_request |
작업을 생성한 UpdateRecognizerRequest입니다. |
delete_recognizer_request |
작업을 생성한 DeleteRecognizerRequest입니다. |
undelete_recognizer_request |
작업을 생성한 UndeleteRecognizerRequest입니다. |
create_custom_class_request |
작업을 생성한 CreateCustomClassRequest입니다. |
update_custom_class_request |
작업을 생성한 UpdateCustomClassRequest입니다. |
delete_custom_class_request |
작업을 생성한 DeleteCustomClassRequest입니다. |
undelete_custom_class_request |
작업을 생성한 UndeleteCustomClassRequest입니다. |
create_phrase_set_request |
작업을 생성한 CreatePhraseSetRequest입니다. |
update_phrase_set_request |
작업을 생성한 UpdatePhraseSetRequest입니다. |
delete_phrase_set_request |
작업을 생성한 DeletePhraseSetRequest입니다. |
undelete_phrase_set_request |
작업을 생성한 UndeletePhraseSetRequest입니다. |
update_config_request |
작업을 생성한 UpdateConfigRequest입니다. |
통합 필드 metadata . RPC당 특정 메타데이터입니다. metadata 는 다음 중 하나여야 합니다. |
|
batch_recognize_metadata |
BatchRecognize 메서드와 관련된 메타데이터입니다. |
OutputFormatConfig
output
에 저장되는 결과 형식의 구성입니다.
필드 | |
---|---|
native |
네이티브 출력 형식의 구성입니다. 이 필드가 설정되었거나 다른 출력 형식 필드가 설정되지 않았으면 스크립트가 네이티브 형식으로 싱크에 기록됩니다. |
vtt |
VTT 출력 형식의 구성입니다. 이 필드를 설정하면 스크립트가 VTT 형식으로 싱크에 기록됩니다. |
srt |
SRT 출력 형식의 구성입니다. 이 필드를 설정하면 스크립트가 SRT 형식으로 싱크에 기록됩니다. |
PhraseSet
음성 인식의 편향을 위한 PhraseSet입니다. PhraseSet는 결과에 특정 단어 및 구문이 표시되도록 음성 인식기에 '힌트'를 제공하는 데 사용됩니다.
필드 | |
---|---|
name |
출력 전용입니다. 식별자. PhraseSet의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. PhraseSet에 시스템에서 할당된 고유 식별자입니다. |
phrases[] |
단어 및 구문 목록입니다. |
boost |
힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 유효한 |
display_name |
사용자가 설정할 수 있고 사람이 읽을 수 있는 PhraseSet 이름입니다. 63자(영문 기준) 이하여야 합니다. |
state |
출력 전용입니다. PhraseSet 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 리소스 삭제를 요청한 시간입니다. |
expire_time |
출력 전용입니다. 이 리소스가 삭제되는 시간입니다. |
annotations |
사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 PhraseSet가 업데이트 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. PhraseSet가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. PhraseSet가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
구문
구문에는 단어 및 구문 '힌트'가 포함되므로 음성 인식에서 인식할 가능성이 높아집니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다.
목록 항목에는 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹이 포함된 CustomClass 참조도 포함될 수 있습니다.
필드 | |
---|---|
value |
구문 자체입니다. |
boost |
힌트 부스트. 구문 집합 수준에서 부스트 집합을 재정의합니다. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트 값은 오류를 반환합니다. 부스트 값은 0~20 사이여야 합니다. 이 범위를 벗어나는 값은 오류를 반환합니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다. |
상태
PhraseSet의 수명 주기를 정의하는 상태 집합입니다.
열거형 | |
---|---|
STATE_UNSPECIFIED |
지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다. |
ACTIVE |
정상 및 활성 상태. |
DELETED |
이 PhraseSet가 삭제되었습니다. |
RecognitionConfig
인식기에 인식 요청 처리 방식을 지정하는 정보를 제공합니다.
필드 | |
---|---|
model |
선택사항입니다. 인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요. |
language_codes[] |
선택사항입니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 언어 태그는 사용되기 전에 BCP-47로 정규화됩니다. 'en-us'는 'en-US'가 됩니다. 각 모델에 지원되는 언어는 지원되는 모델 표에 나열되어 있습니다. 추가 언어를 제공하면 인식 결과에 감지되었을 가능성이 가장 높은 언어로 인식된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. |
features |
사용 설정할 음성 인식 기능입니다. |
adaptation |
특정 단어 및 구문에 대한 인식기 예측에 가중치를 부여하는 음성 적응 컨텍스트입니다. |
transcript_normalization |
선택사항입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다. |
통합 필드 decoding_config . 인식을 위해 전송되는 오디오의 디코딩 매개변수입니다. decoding_config 는 다음 중 하나여야 합니다. |
|
auto_decoding_config |
디코딩 매개변수를 자동으로 감지합니다. 지원되는 형식에 선호됩니다. |
explicit_decoding_config |
명시적으로 지정된 디코딩 매개변수입니다. 헤더 없는 PCM 오디오(linear16, mulaw, alaw)를 사용하는 경우 필요합니다. |
RecognitionFeatures
사용할 수 있는 인식 특성.
필드 | |
---|---|
profanity_filter |
|
enable_word_time_offsets |
|
enable_word_confidence |
|
enable_automatic_punctuation |
|
enable_spoken_punctuation |
통화에 대한 음성 구두점 동작입니다. |
enable_spoken_emojis |
통화의 음성 이모티콘 동작입니다. |
multi_channel_mode |
다중 채널 오디오를 인식하는 모드입니다. |
diarization_config |
화자 분할을 사용 설정하고 애플리케이션에 더 적합한 분할을 위해 추가 매개변수를 설정하기 위한 구성입니다. 이 구성이 사용 설정되면 모든 연속 스트리밍 응답에서 최상위 대안의 오디오 시작부터 모든 단어를 전송합니다. 그 이유는 시간이 지남에 따라 모델이 대화에서 화자를 구별하는 방법을 학습하므로 화자 태그를 개선하기 위함입니다. 스트리밍이 아닌 요청의 경우 최종 SpeechRecognitionResult의 최상위 대안에만 분할 결과가 제공됩니다. |
max_alternatives |
반환되는 인식 가설의 최대 수입니다. 서버는 |
MultiChannelMode
다중 채널 오디오를 인식하는 방법에 대한 옵션입니다.
열거형 | |
---|---|
MULTI_CHANNEL_MODE_UNSPECIFIED |
다중 채널 모드의 기본값입니다. 오디오에 여러 채널이 포함된 경우 첫 번째 채널만 스크립트가 작성됩니다. 다른 채널은 무시됩니다. |
SEPARATE_RECOGNITION_PER_CHANNEL |
이 옵션을 선택하면 제공된 오디오의 각 채널이 독립적으로 스크립트가 작성됩니다. 선택한 model 이 latest_short 인 경우 선택할 수 없습니다. |
RecognitionOutputConfig
인식 출력의 구성 옵션입니다.
필드 | |
---|---|
output_format_config |
선택사항입니다. |
통합 필드
|
|
gcs_output_config |
이 메시지가 채워지면 인식 결과가 제공된 Google Cloud Storage URI에 기록됩니다. |
inline_response_config |
이 메시지가 채워지면 완료되었을 때 작업의 |
RecognitionResponseMetadata
인식 요청 및 응답에 대한 메타데이터입니다.
필드 | |
---|---|
total_billed_duration |
가능한 경우 해당 요청에 대해 청구되는 오디오 초입니다. |
RecognizeRequest
Recognize
메서드에 대한 요청 메시지입니다. content
또는 uri
를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 INVALID_ARGUMENT
가 반환됩니다. 콘텐츠 한도를 참조하세요.
필드 | |
---|---|
recognizer |
필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 |
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
통합 필드 audio_source . 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source 는 다음 중 하나여야 합니다. |
|
content |
|
uri |
|
RecognizeResponse
Recognize
메서드에 대한 응답 메시지입니다.
필드 | |
---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
metadata |
인식에 관한 메타데이터입니다. |
인식기
인식기 메시지입니다. 인식 구성 및 메타데이터를 저장합니다.
필드 | |
---|---|
name |
출력 전용입니다. 식별자. 인식기의 리소스 이름입니다. 형식은 |
uid |
출력 전용입니다. 인식기에 대해 시스템에서 할당된 고유 식별자입니다. |
display_name |
사용자가 설정할 수 있고 사람이 읽을 수 있는 인식기 이름입니다. 63자(영문 기준) 이하여야 합니다. |
model |
선택사항입니다. 이 필드는 현재 지원 중단되었습니다. 인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다. 사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요. |
language_codes[] |
선택사항입니다. 이 필드는 현재 지원 중단되었습니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 각 모델에 지원되는 언어는 지원되는 모델 표에 나열되어 있습니다. 추가 언어를 제공하면 인식 결과에 감지되었을 가능성이 가장 높은 언어로 인식된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. 인식기를 만들거나 업데이트하면 이러한 값은 정규화된 BCP-47 형식으로 저장됩니다. 예를 들어 'en-us'는 'en-US'로 저장됩니다. |
default_recognition_config |
이 인식기의 요청에 사용할 기본 구성입니다. |
annotations |
사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개. |
state |
출력 전용입니다. 인식기 수명 주기 상태입니다. |
create_time |
출력 전용입니다. 생성 시간입니다. |
update_time |
출력 전용입니다. 이 인식기가 수정된 가장 최근 시간입니다. |
delete_time |
출력 전용입니다. 이 인식기의 삭제가 요청된 시간입니다. |
expire_time |
출력 전용입니다. 이 인식기가 삭제되는 시간입니다. |
etag |
출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
reconciling |
출력 전용입니다. 이 인식기가 업데이트되는 중인지 여부입니다. |
kms_key_name |
출력 전용입니다. 인식기가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 |
kms_key_version_name |
출력 전용입니다. 인식기가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 |
상태
인식기의 수명 주기를 정의하는 상태 집합입니다.
열거형 | |
---|---|
STATE_UNSPECIFIED |
기본값입니다. 상태가 생략된 경우에 이 값이 사용됩니다. |
ACTIVE |
인식기가 활성 상태이며 사용할 준비가 되었습니다. |
DELETED |
인식기가 삭제되었습니다. |
SpeakerDiarizationConfig
화자 분할을 사용 설정하기 위한 구성입니다.
필드 | |
---|---|
min_speaker_count |
필수 항목입니다. 대화의 최소 화자 수입니다. 이 범위를 사용하면 시스템에서 자동으로 정확한 화자 수를 결정할 수 있으므로 더 유연하게 선택할 수 있습니다. 오디오에서 감지된 화자 수를 수정하려면 |
max_speaker_count |
필수 항목입니다. 대화의 최대 화자 수입니다. 유효한 값은 1~6입니다. |
SpeechAdaptation
결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다. PhraseSets는 인라인 리소스 또는 기존 PhraseSet 리소스에 대한 참조로 지정될 수 있습니다.
필드 | |
---|---|
phrase_sets[] |
인라인 또는 참조된 PhraseSets의 목록입니다. |
custom_classes[] |
인라인 CustomClasses 목록입니다. 기존 CustomClass 리소스는 PhraseSet에서 직접 참조할 수 있습니다. |
AdaptationPhraseSet
기존 PhraseSets 리소스의 이름을 참조하는 문자열이거나 PhraseSet의 인라인 정의일 수 있는 편향 PhraseSet입니다.
필드 | |
---|---|
통합 필드
|
|
phrase_set |
기존 PhraseSet 리소스의 이름입니다. 사용자에게 리소스에 대한 읽기 액세스 권한이 있어야 하며 리소스를 삭제해서는 안 됩니다. |
inline_phrase_set |
인라인으로 정의된 PhraseSet입니다. |
SpeechRecognitionAlternative
대체 가설로서 n-best 목록이라고도 합니다.
필드 | |
---|---|
transcript |
사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
words[] |
인식된 각 단어의 단어별 정보 목록입니다. |
SpeechRecognitionResult
오디오의 일부분에 해당되는 음성 인식 결과입니다.
필드 | |
---|---|
alternatives[] |
하나 이상의 인식 가설을 포함할 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. |
result_end_offset |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
language_code |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
SrtOutputFileFormatConfig
이 유형에는 필드가 없습니다.
출력 구성 SubRip Text 형식의 자막 파일입니다.
StreamingRecognitionConfig
StreamingRecognize 요청에 대한 구성 정보를 제공합니다.
필드 | |
---|---|
config |
필수 항목입니다. 자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
config_mask |
이 인식 요청 중에 인식기의 |
streaming_features |
스트리밍 오디오 인식 요청과 관련된 음성 인식 기능입니다. |
StreamingRecognitionFeatures
스트리밍 인식 요청과 관련하여 사용 가능한 인식 기능입니다.
필드 | |
---|---|
enable_voice_activity_events |
|
interim_results |
중간 결과를 클라이언트로 스트리밍할지 여부입니다. true로 설정하면 중간 결과가 클라이언트로 스트리밍됩니다. 그렇지 않으면 최종 응답만 다시 스트리밍됩니다. |
voice_activity_timeout |
설정한 경우 마지막 VOICE_ACTIVITY 음성 이벤트가 전송된 후 지정된 시간이 지나면 서버에서 스트림을 자동으로 닫습니다. |
VoiceActivityTimeout
음성 활동에 제한 시간을 설정할 수 있는 이벤트입니다.
필드 | |
---|---|
speech_start_timeout |
음성이 시작되지 않는 경우 스트림의 제한 시간입니다. 이를 설정하고 스트림 시작 시 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다. |
speech_end_timeout |
음성이 종료된 후 스트림의 제한 시간입니다. 이를 설정하고 음성이 감지된 후 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다. |
StreamingRecognitionResult
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.
필드 | |
---|---|
alternatives[] |
하나 이상의 인식 가설을 포함할 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다. |
is_final |
|
stability |
인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 임시 결과( |
result_end_offset |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. |
language_code |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
StreamingRecognizeRequest
StreamingRecognize
메서드에 대한 요청 메시지입니다. 호출 한 번으로 여러 StreamingRecognizeRequest
메시지가 전송됩니다.
recognizer
에서 참조하는 Recognizer
에 완전히 지정된 요청 구성이 포함된 경우 스트림에는 audio
만 설정된 메시지만 포함될 수 있습니다.
그렇지 않으면 첫 번째 메시지는 요청 구성을 완전히 지정하는 recognizer
및 streaming_config
메시지를 포함해야 하며 audio
를 포함해서는 안 됩니다. 이후의 모든 메시지에는 audio
만 설정되어야 합니다.
필드 | |
---|---|
recognizer |
필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 |
통합 필드
|
|
streaming_config |
이 인식 시도에 사용할 StreamingRecognitionConfig입니다. 제공할 경우 인식기에 저장된 기본 RecognitionConfig를 재정의합니다. |
audio |
인식할 인라인 오디오 바이트입니다. 이 필드의 최대 크기는 요청당 15KB입니다. |
StreamingRecognizeResponse
StreamingRecognizeResponse
는 StreamingRecognize
가 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse
메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.
다음은 오디오를 처리하는 동안 반환될 수 있는 몇 가지 StreamingRecognizeResponse
예시입니다.
results { alternatives { transcript: "tube" } stability: 0.01 }
results { alternatives { transcript: "to be a" } stability: 0.01 }
results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }
results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }
results { alternatives { transcript: " that's" } stability: 0.01 }
results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }
results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }
참고:
위의 응답 중
is_final: true
로 표시된 #4와 #7에만 최종 결과가 있습니다. 이들을 연결하면 전체 스크립트('to be or not to be that is the question')가 만들어집니다.나머지에는 중간
results
가 포함됩니다. #3과 #6에는 두 개의 중간results
가 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다. UI 디자이너는 재량에 따라 안정성이 높은results
만 표시할 수 있습니다.위에 표시된 특정
stability
및confidence
값은 참고용이며 실제 값은 다를 수 있습니다.각 응답에서
error
,speech_event_type
, 하나 이상의 반복되는results
필드 중 하나만 설정됩니다.
필드 | |
---|---|
results[] |
반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 |
speech_event_type |
음성 이벤트 유형을 나타냅니다. |
speech_event_offset |
오디오 시작과 이벤트 방출 사이의 타임스탬프입니다. |
metadata |
인식에 관한 메타데이터입니다. |
SpeechEventType
음성 이벤트 유형을 나타냅니다.
열거형 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
음성 이벤트가 지정되지 않았습니다. |
END_OF_SINGLE_UTTERANCE |
이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않고 gRPC 양방향 스트림을 닫습니다. 이 이벤트는 조기에 무음이 감지되어 강제 컷오프된 경우에만 전송됩니다. 이 이벤트는 latest_short model 을 통해서만 제공됩니다. |
SPEECH_ACTIVITY_BEGIN |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 시작을 감지했음을 나타냅니다. 스트림 전체에서 음성이 시작되고 중지되면 이 이벤트가 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events 가 true로 설정된 경우에만 전송됩니다. |
SPEECH_ACTIVITY_END |
이 이벤트는 서버가 스트림에서 사람 음성 활동의 끝을 감지했음을 나타냅니다. 스트림 전체에서 음성이 시작되고 중지되면 이 이벤트가 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events 가 true로 설정된 경우에만 전송됩니다. |
TranscriptNormalization
스크립트 작성 정규화 구성입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.
필드 | |
---|---|
entries[] |
대체 항목 목록입니다. 한 번에 하나의 항목으로 교체됩니다. 예를 들어 ["cat" => "dog", "mountain cat" => "mountain dog"] 의 두 번째 항목은 항상 첫 번째 항목이 먼저 처리되기 때문에 적용되지 않습니다. 최대 100개 항목. |
항목
단일 대체 구성.
필드 | |
---|---|
search |
교체할 대상. 최대 길이는 100자(영문 기준)입니다. |
replace |
교체할 대상. 최대 길이는 100자(영문 기준)입니다. |
case_sensitive |
검색 시 대소문자를 구분하는지 여부입니다. |
UndeleteCustomClassRequest
UndeleteCustomClass
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제 취소할 CustomClass의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 CustomClass를 미리 봅니다. 그러나 실제로 삭제를 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UndeletePhraseSetRequest
UndeletePhraseSet
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제 취소할 PhraseSet의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제를 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UndeleteRecognizerRequest
UndeleteRecognizer
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
name |
필수 항목입니다. 삭제 취소할 인식기의 이름입니다. 형식: |
validate_only |
설정한 경우 요청을 검증하고 삭제 취소된 인식기를 미리 봅니다. 그러나 실제로 삭제 취소하지는 않습니다. |
etag |
이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다. |
UpdateConfigRequest
UpdateConfig
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
config |
필수 항목입니다. 업데이트할 구성입니다. 구성의 |
update_mask |
업데이트할 필드 목록입니다. |
UpdateCustomClassRequest
UpdateCustomClass
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
custom_class |
필수 항목입니다. 업데이트할 CustomClass입니다. CustomClass의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 모든 필드가 업데이트 대상으로 고려됩니다. |
validate_only |
설정하면 요청을 검증하고 업데이트된 CustomClass를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
UpdatePhraseSetRequest
UpdatePhraseSet
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
phrase_set |
필수 항목입니다. 업데이트할 PhraseSet입니다. PhraseSet의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 고려됩니다. |
validate_only |
설정한 경우 요청을 검증하고 업데이트된 PhraseSet를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
UpdateRecognizerRequest
UpdateRecognizer
메서드에 대한 요청 메시지입니다.
필드 | |
---|---|
recognizer |
필수 항목입니다. 업데이트할 인식기입니다. 인식기의 |
update_mask |
업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 고려됩니다. |
validate_only |
설정한 경우 요청을 검증하고 업데이트된 인식기를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다. |
VttOutputFileFormatConfig
이 유형에는 필드가 없습니다.
WebVTT 형식 자막 파일의 출력 구성입니다.
WordInfo
인식된 단어의 단어별 정보입니다.
필드 | |
---|---|
start_offset |
오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 |
end_offset |
오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 |
word |
이 정보 세트에 해당하는 단어입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
speaker_label |
오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. |