Package google.cloud.speech.v2

색인

음성

음성 스크립트 작성 및 리소스 관리를 사용 설정합니다.

BatchRecognize

rpc BatchRecognize(BatchRecognizeRequest) returns (Operation)

일괄 비동기 음성 인식을 수행합니다. 오디오 파일 N개가 포함된 요청을 보내고 스크립트 작성이 완료된 시간을 확인하기 위해 폴링할 수 있는 장기 실행 작업을 수신합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

recognizer 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.recognize

자세한 내용은 IAM 문서를 참조하세요.

CreateCustomClass

rpc CreateCustomClass(CreateCustomClassRequest) returns (Operation)

CustomClass를 만듭니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.create

자세한 내용은 IAM 문서를 참조하세요.

CreatePhraseSet

rpc CreatePhraseSet(CreatePhraseSetRequest) returns (Operation)

PhraseSet를 만듭니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.create

자세한 내용은 IAM 문서를 참조하세요.

CreateRecognizer

rpc CreateRecognizer(CreateRecognizerRequest) returns (Operation)

Recognizer를 만듭니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.create

자세한 내용은 IAM 문서를 참조하세요.

DeleteCustomClass

rpc DeleteCustomClass(DeleteCustomClassRequest) returns (Operation)

CustomClass를 삭제합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.delete

자세한 내용은 IAM 문서를 참조하세요.

DeletePhraseSet

rpc DeletePhraseSet(DeletePhraseSetRequest) returns (Operation)

PhraseSet를 삭제합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.delete

자세한 내용은 IAM 문서를 참조하세요.

DeleteRecognizer

rpc DeleteRecognizer(DeleteRecognizerRequest) returns (Operation)

Recognizer를 삭제합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.delete

자세한 내용은 IAM 문서를 참조하세요.

GetConfig

rpc GetConfig(GetConfigRequest) returns (Config)

요청된 Config를 반환합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.config.get

자세한 내용은 IAM 문서를 참조하세요.

GetCustomClass

rpc GetCustomClass(GetCustomClassRequest) returns (CustomClass)

요청된 CustomClass를 반환합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.get

자세한 내용은 IAM 문서를 참조하세요.

GetPhraseSet

rpc GetPhraseSet(GetPhraseSetRequest) returns (PhraseSet)

요청된 PhraseSet를 반환합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.get

자세한 내용은 IAM 문서를 참조하세요.

GetRecognizer

rpc GetRecognizer(GetRecognizerRequest) returns (Recognizer)

요청된 Recognizer를 반환합니다. 요청된 인식기가 없으면 NOT_FOUND 오류와 함께 실패합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.get

자세한 내용은 IAM 문서를 참조하세요.

ListCustomClasses

rpc ListCustomClasses(ListCustomClassesRequest) returns (ListCustomClassesResponse)

CustomClasses를 나열합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.list

자세한 내용은 IAM 문서를 참조하세요.

ListPhraseSets

rpc ListPhraseSets(ListPhraseSetsRequest) returns (ListPhraseSetsResponse)

PhraseSets를 나열합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.list

자세한 내용은 IAM 문서를 참조하세요.

ListRecognizers

rpc ListRecognizers(ListRecognizersRequest) returns (ListRecognizersResponse)

인식기를 나열합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

parent 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.list

자세한 내용은 IAM 문서를 참조하세요.

인식

rpc Recognize(RecognizeRequest) returns (RecognizeResponse)

동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

recognizer 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.recognize

자세한 내용은 IAM 문서를 참조하세요.

StreamingRecognize

rpc StreamingRecognize(StreamingRecognizeRequest) returns (StreamingRecognizeResponse)

양방향 스트리밍 음성 인식을 수행합니다. 오디오 전송 중에 결과를 수신합니다. gRPC API(REST 아님)에서만 이 메서드를 사용할 수 있습니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

recognizer 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.recognize

자세한 내용은 IAM 문서를 참조하세요.

UndeleteCustomClass

rpc UndeleteCustomClass(UndeleteCustomClassRequest) returns (Operation)

CustomClass를 삭제 취소합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.undelete

자세한 내용은 IAM 문서를 참조하세요.

UndeletePhraseSet

rpc UndeletePhraseSet(UndeletePhraseSetRequest) returns (Operation)

PhraseSet를 삭제 취소합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.undelete

자세한 내용은 IAM 문서를 참조하세요.

UndeleteRecognizer

rpc UndeleteRecognizer(UndeleteRecognizerRequest) returns (Operation)

Recognizer를 삭제 취소합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.undelete

자세한 내용은 IAM 문서를 참조하세요.

UpdateConfig

rpc UpdateConfig(UpdateConfigRequest) returns (Config)

Config을 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.config.update

자세한 내용은 IAM 문서를 참조하세요.

UpdateCustomClass

rpc UpdateCustomClass(UpdateCustomClassRequest) returns (Operation)

CustomClass을 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.customClasses.update

자세한 내용은 IAM 문서를 참조하세요.

UpdatePhraseSet

rpc UpdatePhraseSet(UpdatePhraseSetRequest) returns (Operation)

PhraseSet을 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.phraseSets.update

자세한 내용은 IAM 문서를 참조하세요.

UpdateRecognizer

rpc UpdateRecognizer(UpdateRecognizerRequest) returns (Operation)

Recognizer을 업데이트합니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

name 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.update

자세한 내용은 IAM 문서를 참조하세요.

메타데이터 액세스

특정 리전에 대한 액세스 메타데이터입니다. 지정된 프로젝트의 조직 정책이 특정 리전을 허용하지 않는 경우에 이를 적용할 수 있습니다.

필드
constraint_type

ConstraintType

적용되는 여러 유형의 제약조건을 설명합니다.

제약조건 유형

리전에 적용할 수 있는 다양한 유형의 제약조건을 설명합니다.

열거형
CONSTRAINT_TYPE_UNSPECIFIED 지정되지 않은 제약조건이 적용되었습니다.
RESOURCE_LOCATIONS_ORG_POLICY_CREATE_CONSTRAINT 프로젝트의 조직 정책이 지정된 리전을 허용하지 않습니다.

AutoDetectDecodingConfig

이 유형에는 필드가 없습니다.

자동으로 감지된 디코딩 매개변수. 다음 인코딩에 지원됩니다.

  • WAV_LINEAR16: WAV 컨테이너의 부호 있는 16비트 little-endian PCM 샘플

  • WAV_MULAW: WAV 컨테이너의 8비트 압축 mulaw 샘플

  • WAV_ALAW: WAV 컨테이너의 8비트 압축 alaw 샘플

  • RFC4867_5_AMR: rfc4867.5 헤더가 있는 AMR 프레임

  • RFC4867_5_AMRWB: rfc4867.5 헤더가 있는 AMR-WB 프레임

  • FLAC: '네이티브 FLAC' 컨테이너 형식의 FLAC 프레임

  • MP3: 선택적 (무시된) ID3 메타데이터가 있는 MPEG 오디오 프레임

  • OGG_OPUS: Ogg 컨테이너의 Opus 오디오 프레임

  • WEBM_OPUS: WebM 컨테이너의 Opus 오디오 프레임

  • M4A: M4A 오디오 형식

BatchRecognizeFileMetadata

BatchRecognize의 배치에 있는 단일 파일에 대한 메타데이터입니다.

필드
config

RecognitionConfig

자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 config_mask 필드와 함께 사용하여 요청 수준에서 인식기 리소스의 default_recognition_config 부분과 config를 재정의할 수 있습니다.

config_mask

FieldMask

이 인식 요청 중에 인식기의 default_recognition_config에 있는 값을 재정의하는 config의 필드 목록입니다. 마스크를 제공하지 않으면 config의 기본값이 아닌 모든 값 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(*)가 제공되면 config는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다.

통합 필드 audio_source. Google Cloud Storage URI에 해당하는 오디오 소스입니다. audio_source는 다음 중 하나여야 합니다.
uri

string

오디오 파일의 Cloud Storage URI입니다.

일괄 인식 파일 결과

단일 파일의 최종 결과입니다.

필드
error

Status

발생한 경우 오류입니다.

metadata

RecognitionResponseMetadata

uri
(deprecated)

string

지원이 중단되었습니다. 대신 cloud_storage_result.native_format_uri를 사용하세요.

transcript
(deprecated)

BatchRecognizeResults

지원이 중단되었습니다. 대신 inline_result.transcript를 사용하세요.

통합 필드 result.

result는 다음 중 하나여야 합니다.

cloud_storage_result

CloudStorageResult

Cloud Storage에 기록된 인식 결과. 이는 GcsOutputConfig가 [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig에 설정된 경우에만 채워집니다.

inline_result

InlineResult

인식 결과. 이는 InlineOutputConfig가 [RecognitionOutputConfig][google.cloud.speech.v2.RecognitionOutputConfig에 설정된 경우에만 채워집니다.

일괄 인식 메타데이터

BatchRecognize의 작업 메타데이터입니다.

필드
transcription_metadata

map<string, BatchRecognizeTranscriptionMetadata>

제공된 파일 이름을 해당 파일의 스크립트 작성 메타데이터로 매핑합니다.

BatchRecognizeRequest

BatchRecognize 메서드에 대한 요청 메시지입니다.

필드
recognizer

string

필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 _로 설정하여 사용할 수 있습니다.

config

RecognitionConfig

자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 config_mask 필드와 함께 사용하여 인식기 리소스의 default_recognition_config 일부를 재정의할 수 있습니다.

config_mask

FieldMask

이 인식 요청 중에 인식기의 default_recognition_config에 있는 값을 재정의하는 config의 필드 목록입니다. 마스크를 제공하지 않으면 config에 지정된 모든 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(*)가 제공되면 config는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다.

files[]

BatchRecognizeFileMetadata

ASR용 파일 메타데이터가 포함된 오디오 파일. 지정할 수 있는 최대 파일 수는 5개입니다.

recognition_output_config

RecognitionOutputConfig

각 파일의 스크립트를 출력할 위치에 대한 구성 옵션입니다.

processing_strategy

ProcessingStrategy

이 요청에 사용할 처리 전략입니다.

ProcessingStrategy

일괄 요청에 사용 가능한 처리 전략입니다.

열거형
PROCESSING_STRATEGY_UNSPECIFIED 처리 전략의 기본값입니다. 요청이 수신되는 즉시 처리됩니다.
DYNAMIC_BATCHING 이를 선택하면 사용률이 낮은 기간 동안 가격 할인으로 요청을 처리합니다. 요청이 24시간 이내에 처리됩니다.

일괄 인식 응답

장기 실행 Operation으로 패키징된 BatchRecognize의 응답 메시지입니다.

필드
results

map<string, BatchRecognizeFileResult>

파일 이름을 해당 파일의 최종 결과로 매핑합니다.

total_billed_duration

Duration

가능한 경우 해당 요청에 대해 청구되는 오디오 초입니다.

일괄 인식 결과

BatchRecognize 스크립트의 Cloud Storage 출력 유형입니다. 이 proto는 이 API의 어디에서도 반환되지 않지만 Cloud Storage 스크립트는 이 proto 직렬화가 되고 그에 따라 파싱되어야 합니다.

필드
results[]

SpeechRecognitionResult

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

metadata

RecognitionResponseMetadata

인식에 관한 메타데이터입니다.

BatchRecognizeTranscriptionMetadata

단일 파일의 스크립트 작성에 관한 메타데이터(예: 진행률 비율)입니다.

필드
progress_percent

int32

지금까지 스크립트 작성된 파일의 양입니다.

error

Status

발생한 경우 오류입니다.

uri

string

인식 결과가 기록될 Cloud Storage URI입니다.

CloudStorageResult

Cloud Storage에 기록된 최종 결과입니다.

필드
uri

string

인식 결과가 기록된 Cloud Storage URI입니다.

vtt_format_uri

string

인식 결과가 VTT 형식 자막으로 기록된 Cloud Storage URI입니다. VTT 출력이 요청될 때만 채워집니다.

srt_format_uri

string

인식 결과가 SRT 형식 자막으로 기록된 Cloud Storage URI입니다. SRT 출력이 요청될 때만 채워집니다.

구성

Speech-to-Text API의 구성을 나타내는 메시지입니다. 여기에는 수신 데이터를 암호화하는 선택적 KMS 키가 포함됩니다.

필드
name

string

출력 전용입니다. 식별자. 구성 리소스의 이름입니다. 위치당 프로젝트당 정확히 하나의 구성 리소스가 있습니다. 예상되는 형식은 projects/{project}/locations/{location}/config입니다.

kms_key_name

string

선택사항입니다. 저장된 Speech-to-Text 리소스를 암호화하는 데 사용되는 선택적인 KMS 키 이름입니다. 이 키를 업데이트해도 이 키를 사용하는 기존 리소스는 암호화되지 않습니다. 새 리소스만 이 키를 사용하여 암호화됩니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

update_time

Timestamp

출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다.

CreateCustomClassRequest

CreateCustomClass 메서드에 대한 요청 메시지입니다.

필드
custom_class

CustomClass

필수 항목입니다. 만들 CustomClass입니다.

validate_only

bool

설정한 경우 요청을 검증하고 CustomClass를 미리 봅니다. 하지만 실제로 만들지는 않습니다.

custom_class_id

string

CustomClass에 사용할 ID이며, CustomClass의 리소스 이름의 마지막 구성 요소가 됩니다.

이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다.

parent

string

필수 항목입니다. 이 CustomClass가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

CreatePhraseSetRequest

CreatePhraseSet 메서드에 대한 요청 메시지입니다.

필드
phrase_set

PhraseSet

필수 항목입니다. 만들 PhraseSet입니다.

validate_only

bool

설정한 경우 요청을 검증하고 PhraseSet를 미리 봅니다. 하지만 실제로 만들지는 않습니다.

phrase_set_id

string

PhraseSet에 사용할 ID이며, PhraseSet의 리소스 이름의 마지막 구성 요소가 됩니다.

이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다.

parent

string

필수 항목입니다. 이 PhraseSet가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

CreateRecognizerRequest

CreateRecognizer 메서드에 대한 요청 메시지입니다.

필드
recognizer

Recognizer

필수 항목입니다. 만들 인식기입니다.

validate_only

bool

설정한 경우 요청을 검증하고 인식기를 미리 봅니다. 하지만 실제로 만들지는 않습니다.

recognizer_id

string

인식기에 사용할 ID이며, 인식기의 리소스 이름의 마지막 구성 요소가 됩니다.

이 값은 4~63자(영문 기준)여야 하며 유효한 문자는 /[a-z][0-9]-/입니다.

parent

string

필수 항목입니다. 이 인식기가 생성될 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

CustomClass

음성 인식 편향을 위한 CustomClass입니다. 오디오에 나타날 수 있는 일반적인 개념이나 테마를 나타내는 단어 또는 구문 집합을 정의하는 데 사용됩니다(예: 여객선 이름 목록).

필드
name

string

출력 전용입니다. 식별자. CustomClass의 리소스 이름입니다. 형식은 projects/{project}/locations/{location}/customClasses/{custom_class}입니다.

uid

string

출력 전용입니다. 시스템에서 할당된 CustomClass의 고유 식별자입니다.

display_name

string

선택사항입니다. 사용자가 설정할 수 있고 사람이 읽을 수 있는 CustomClass 이름입니다. 63자(영문 기준) 이하여야 합니다.

items[]

ClassItem

클래스 항목의 컬렉션입니다.

state

State

출력 전용입니다. CustomClass 수명 주기 상태입니다.

create_time

Timestamp

출력 전용입니다. 생성 시간입니다.

update_time

Timestamp

출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다.

delete_time

Timestamp

출력 전용입니다. 이 리소스 삭제를 요청한 시간입니다.

expire_time

Timestamp

출력 전용입니다. 이 리소스가 삭제되는 시간입니다.

annotations

map<string, string>

선택사항입니다. 사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개.

etag

string

출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

reconciling

bool

출력 전용입니다. 이 CustomClass가 업데이트되는 중인지 여부입니다.

kms_key_name

string

출력 전용입니다. CustomClass가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

출력 전용입니다. CustomClass가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

ClassItem

클래스의 항목입니다.

필드
value

string

클래스 항목의 값입니다.

상태

CustomClass의 수명 주기를 정의하는 상태 집합입니다.

열거형
STATE_UNSPECIFIED 지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다.
ACTIVE 정상 및 활성 상태.
DELETED CustomClass가 삭제되었습니다.

DeleteCustomClassRequest

DeleteCustomClass 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제할 CustomClass의 이름입니다. 형식: projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

설정한 경우 요청을 검증하고 삭제된 CustomClass를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다.

allow_missing

bool

true로 설정되어 있고 CustomClass를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음).

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

DeletePhraseSetRequest

DeletePhraseSet 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제할 PhraseSet의 이름입니다. 형식: projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

설정한 경우 요청을 검증하고 삭제된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다.

allow_missing

bool

true로 설정되어 있고 PhraseSet를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음).

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

DeleteRecognizerRequest

DeleteRecognizer 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제할 인식기의 이름입니다. 형식: projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

설정한 경우 요청을 검증하고 삭제된 인식기를 미리 봅니다. 하지만 실제로 삭제하지는 않습니다.

allow_missing

bool

true로 설정되어 있고 인식기를 찾을 수 없으면 요청이 성공하고 노옵스(no-ops)가 됩니다(이 경우 작업이 기록되지 않음).

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

ExplicitDecodingConfig

명시적으로 지정된 디코딩 매개변수입니다.

필드
encoding

AudioEncoding

필수 항목입니다. 인식을 위해 전송된 오디오 데이터의 인코딩입니다.

sample_rate_hertz

int32

인식을 위해 전송된 오디오 데이터의 샘플링 레이트(Hz)입니다. 유효한 값은 8,000~48,000이며 최적값은 16,000입니다. 최상의 결과를 얻으려면 오디오 소스의 샘플링 레이트를 16,000Hz로 설정하세요. 이 설정이 불가능하다면 다시 샘플링하지 말고 오디오 소스의 기본 샘플링 레이트를 사용하면 됩니다. 다음 인코딩에 지원됩니다.

  • LINEAR16: 헤더 없는 16비트 부호 little-endian PCM 샘플

  • MULAW: 헤더 없는 8비트 압축 mulaw 샘플

  • ALAW: 헤더 없는 8비트 압축 alaw 샘플

audio_channel_count

int32

인식을 위해 전송된 오디오 데이터에 있는 채널 수입니다. 다음 인코딩에 지원됩니다.

  • LINEAR16: 헤더 없는 16비트 부호 little-endian PCM 샘플

  • MULAW: 헤더 없는 8비트 압축 mulaw 샘플

  • ALAW: 헤더 없는 8비트 압축 alaw 샘플

허용되는 최댓값은 8입니다.

AudioEncoding

지원되는 오디오 데이터 인코딩입니다.

열거형
AUDIO_ENCODING_UNSPECIFIED 기본값 이 값은 사용되지 않습니다.
LINEAR16 헤더 없는 16비트 부호 little-endian PCM 샘플
MULAW 헤더 없는 8비트 압축 mulaw 샘플
ALAW 헤더 없는 8비트 압축 alaw 샘플

GcsOutputConfig

Cloud Storage의 출력 구성입니다.

필드
uri

string

인식 결과가 기록되는 Cloud Storage URI 프리픽스입니다.

GetConfigRequest

GetConfig 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 검색할 구성의 이름입니다. 위치당 프로젝트당 정확히 하나의 구성 리소스가 있습니다. 예상되는 형식은 projects/{project}/locations/{location}/config입니다.

GetCustomClassRequest

GetCustomClass 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 검색할 CustomClass의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/customClasses/{custom_class}입니다.

GetPhraseSetRequest

GetPhraseSet 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 검색할 PhraseSet의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/phraseSets/{phrase_set}입니다.

GetRecognizerRequest

GetRecognizer 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 검색할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다.

InlineOutputConfig

이 유형에는 필드가 없습니다.

인라인 응답의 출력 구성입니다.

InlineResult

인식 응답에서 인라인으로 반환된 최종 결과입니다.

필드
transcript

BatchRecognizeResults

오디오 파일의 스크립트입니다.

vtt_captions

string

VTT 형식의 자막으로 된 오디오 파일의 스크립트입니다. VTT 출력이 요청될 때만 채워집니다.

srt_captions

string

SRT 형식의 자막으로 된 오디오 파일의 스크립트입니다. SRT 출력이 요청될 때만 채워집니다.

LanguageMetadata

특정 리전에서 사용할 수 있는 언어에 대한 메타데이터입니다. 현재는 각 언어에서 사용할 수 있는 모델만 표시됩니다.

필드
models

map<string, ModelMetadata>

언어 지도(언어 코드) -> 모델

ListCustomClassesRequest

ListCustomClasses 메서드에 대한 요청 메시지입니다.

필드
parent

string

필수 항목입니다. 나열할 CustomClass 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

page_size

int32

요청당 결과 수. 유효한 page_size 범위는 0~100까지입니다. page_size가 0이거나 지정되지 않으면 페이지 크기 5가 선택됩니다. 페이지 크기가 100을 초과하면 100으로 강제 변환됩니다. 호출은 요청된 페이지 크기보다 더 적은 결과를 반환할 수 있습니다.

page_token

string

이전 ListCustomClasses 호출에서 받은 페이지 토큰입니다. 후속 페이지를 검색하려면 이를 입력합니다.

페이지를 매길 때 ListCustomClasses에 제공된 다른 모든 매개변수는 페이지 토큰을 제공한 호출과 일치해야 합니다.

show_deleted

bool

삭제된 리소스를 표시할지 여부입니다.

ListCustomClassesResponse

ListCustomClasses 메서드에 대한 응답 메시지입니다.

필드
custom_classes[]

CustomClass

요청된 CustomClasses 목록입니다.

next_page_token

string

다음 페이지를 검색하기 위해 page_token으로 전송할 수 있는 토큰입니다. 이 필드를 생략하면 후속 페이지가 표시되지 않습니다. 이 토큰은 72시간 후에 만료됩니다.

ListPhraseSetsRequest

ListPhraseSets 메서드에 대한 요청 메시지입니다.

필드
parent

string

필수 항목입니다. 나열할 PhraseSet 리소스의 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

page_size

int32

반환할 최대 PhraseSets 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 PhraseSets가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다.

page_token

string

이전 ListPhraseSets 호출에서 받은 페이지 토큰입니다. 후속 페이지를 검색하려면 이를 입력합니다.

페이지를 매길 때 ListPhraseSets에 제공된 다른 모든 매개변수는 페이지 토큰을 제공한 호출과 일치해야 합니다.

show_deleted

bool

삭제된 리소스를 표시할지 여부입니다.

ListPhraseSetsResponse

ListPhraseSets 메서드에 대한 응답 메시지입니다.

필드
phrase_sets[]

PhraseSet

요청된 PhraseSets의 목록입니다.

next_page_token

string

다음 페이지를 검색하기 위해 page_token으로 전송할 수 있는 토큰입니다. 이 필드를 생략하면 후속 페이지가 표시되지 않습니다. 이 토큰은 72시간 후에 만료됩니다.

ListRecognizersRequest

ListRecognizers 메서드에 대한 요청 메시지입니다.

필드
parent

string

필수 항목입니다. 나열할 인식기의 프로젝트 및 위치입니다. 예상되는 형식은 projects/{project}/locations/{location}입니다.

page_size

int32

반환할 최대 인식기 수입니다. 서비스가 이 값보다 더 적게 반환할 수 있습니다. 지정하지 않으면 최대 5개의 인식기가 반환됩니다. 최댓값은 100이며, 100을 초과하는 값은 100으로 변환됩니다.

page_token

string

이전 ListRecognizers 호출에서 받은 페이지 토큰입니다. 후속 페이지를 검색하려면 이를 입력합니다.

페이지를 매길 때 ListRecognizers에 제공된 다른 모든 매개변수는 페이지 토큰을 제공한 호출과 일치해야 합니다.

show_deleted

bool

삭제된 리소스를 표시할지 여부입니다.

ListRecognizersResponse

ListRecognizers 메서드에 대한 응답 메시지입니다.

필드
recognizers[]

Recognizer

요청한 인식기의 목록입니다.

next_page_token

string

다음 페이지를 검색하기 위해 page_token으로 전송할 수 있는 토큰입니다. 이 필드를 생략하면 후속 페이지가 표시되지 않습니다. 이 토큰은 72시간 후에 만료됩니다.

LocationsMetadata

STT V2용 Locations API의 기본 메타데이터입니다. 현재는 언어, 모델, 특성에 대한 메타데이터입니다.

필드
languages

LanguageMetadata

언어 -> 모델 -> 특성의 계층 구조에 표시된 사용 가능한 언어, 모델, 특성에 대한 정보입니다.

access_metadata

AccessMetadata

리전 및 지정된 프로젝트의 액세스 메타데이터에 대한 정보입니다.

ModelFeature

모델의 단일 특성을 나타냅니다. 특성이 recognizer인 경우 특성의 release_state는 모델의 release_state를 나타냅니다.

필드
feature

string

특성의 이름(참고: 특성은 recognizer일 수 있음)

release_state

string

특성의 출시 상태

ModelFeatures

모델에 속하는 특성의 컬렉션을 나타냅니다.

필드
model_feature[]

ModelFeature

모델의 모든 특성을 포함하는 반복되는 필드입니다.

ModelMetadata

특정 언어의 특정 리전에 있는 모델에 대한 메타데이터입니다. 현재는 모델의 특성일 뿐입니다.

필드
model_features

map<string, ModelFeatures>

모델 이름 맵 -> 해당 모델의 특성

NativeOutputFileFormatConfig

이 유형에는 필드가 없습니다.

직렬화된 BatchRecognizeResults proto의 출력 구성입니다.

OperationMetadata

장기 실행 작업의 메타데이터를 나타냅니다.

필드
create_time

Timestamp

작업이 생성된 시간입니다.

update_time

Timestamp

작업이 마지막으로 업데이트된 시간입니다.

resource

string

작업 대상의 리소스 경로입니다.

method

string

작업을 트리거한 메서드입니다.

kms_key_name

string

작업 콘텐츠가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

작업 콘텐츠가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

progress_percent

int32

작업의 진행률입니다. 값 범위는 0~100입니다. 값이 100이면 작업이 완료된 것입니다.

통합 필드 request. 작업을 생성한 요청입니다. request는 다음 중 하나여야 합니다.
batch_recognize_request

BatchRecognizeRequest

작업을 생성한 BatchRecognizeRequest입니다.

create_recognizer_request

CreateRecognizerRequest

작업을 생성한 CreateRecognizerRequest입니다.

update_recognizer_request

UpdateRecognizerRequest

작업을 생성한 UpdateRecognizerRequest입니다.

delete_recognizer_request

DeleteRecognizerRequest

작업을 생성한 DeleteRecognizerRequest입니다.

undelete_recognizer_request

UndeleteRecognizerRequest

작업을 생성한 UndeleteRecognizerRequest입니다.

create_custom_class_request

CreateCustomClassRequest

작업을 생성한 CreateCustomClassRequest입니다.

update_custom_class_request

UpdateCustomClassRequest

작업을 생성한 UpdateCustomClassRequest입니다.

delete_custom_class_request

DeleteCustomClassRequest

작업을 생성한 DeleteCustomClassRequest입니다.

undelete_custom_class_request

UndeleteCustomClassRequest

작업을 생성한 UndeleteCustomClassRequest입니다.

create_phrase_set_request

CreatePhraseSetRequest

작업을 생성한 CreatePhraseSetRequest입니다.

update_phrase_set_request

UpdatePhraseSetRequest

작업을 생성한 UpdatePhraseSetRequest입니다.

delete_phrase_set_request

DeletePhraseSetRequest

작업을 생성한 DeletePhraseSetRequest입니다.

undelete_phrase_set_request

UndeletePhraseSetRequest

작업을 생성한 UndeletePhraseSetRequest입니다.

update_config_request
(deprecated)

UpdateConfigRequest

작업을 생성한 UpdateConfigRequest입니다.

통합 필드 metadata. RPC당 특정 메타데이터입니다. metadata는 다음 중 하나여야 합니다.
batch_recognize_metadata

BatchRecognizeMetadata

BatchRecognize 메서드와 관련된 메타데이터입니다.

OutputFormatConfig

output에 저장되는 결과 형식의 구성입니다.

필드
native

NativeOutputFileFormatConfig

네이티브 출력 형식의 구성입니다. 이 필드가 설정되었거나 다른 출력 형식 필드가 설정되지 않았으면 스크립트가 네이티브 형식으로 싱크에 기록됩니다.

vtt

VttOutputFileFormatConfig

VTT 출력 형식의 구성입니다. 이 필드를 설정하면 스크립트가 VTT 형식으로 싱크에 기록됩니다.

srt

SrtOutputFileFormatConfig

SRT 출력 형식의 구성입니다. 이 필드를 설정하면 스크립트가 SRT 형식으로 싱크에 기록됩니다.

PhraseSet

음성 인식의 편향을 위한 PhraseSet입니다. PhraseSet는 결과에 특정 단어 및 구문이 표시되도록 음성 인식기에 '힌트'를 제공하는 데 사용됩니다.

필드
name

string

출력 전용입니다. 식별자. PhraseSet의 리소스 이름입니다. 형식은 projects/{project}/locations/{location}/phraseSets/{phrase_set}입니다.

uid

string

출력 전용입니다. PhraseSet에 시스템에서 할당된 고유 식별자입니다.

phrases[]

Phrase

단어 및 구문 목록입니다.

boost

float

힌트 부스트. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 유효한 boost 값은 0 초과 20 이하입니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다.

display_name

string

사용자가 설정할 수 있고 사람이 읽을 수 있는 PhraseSet 이름입니다. 63자(영문 기준) 이하여야 합니다.

state

State

출력 전용입니다. PhraseSet 수명 주기 상태입니다.

create_time

Timestamp

출력 전용입니다. 생성 시간입니다.

update_time

Timestamp

출력 전용입니다. 이 리소스를 수정한 가장 최근 시간입니다.

delete_time

Timestamp

출력 전용입니다. 이 리소스 삭제를 요청한 시간입니다.

expire_time

Timestamp

출력 전용입니다. 이 리소스가 삭제되는 시간입니다.

annotations

map<string, string>

사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개.

etag

string

출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

reconciling

bool

출력 전용입니다. 이 PhraseSet가 업데이트 중인지 여부입니다.

kms_key_name

string

출력 전용입니다. PhraseSet가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

출력 전용입니다. PhraseSet가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

구문

구문에는 단어 및 구문 '힌트'가 포함되므로 음성 인식에서 인식할 가능성이 높아집니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다.

목록 항목에는 자연어에서 발생하는 일반적인 개념을 나타내는 단어 그룹이 포함된 CustomClass 참조도 포함될 수 있습니다.

필드
value

string

구문 자체입니다.

boost

float

힌트 부스트. 구문 집합 수준에서 부스트 집합을 재정의합니다. 양수 값을 사용하면 특정 구문이 발음이 유사한 다른 구문보다 인식될 가능성이 높아집니다. 부스트가 높을수록 거짓양성을 인식할 가능성도 높아집니다. 음수 부스트 값은 편향 방지에 해당합니다. 편향 방지가 사용 설정되어 있지 않으므로 음수 부스트 값은 오류를 반환합니다. 부스트 값은 0~20 사이여야 합니다. 이 범위를 벗어나는 값은 오류를 반환합니다. 바이너리 검색 방식을 사용하여 사용 사례의 최적값을 찾고 요청에 부스트 유무에 관계없이 구문을 추가하는 것이 좋습니다.

상태

PhraseSet의 수명 주기를 정의하는 상태 집합입니다.

열거형
STATE_UNSPECIFIED 지정되지 않은 상태. 설정되지 않은 값을 구별하는 데만 사용되며 유용합니다.
ACTIVE 정상 및 활성 상태.
DELETED 이 PhraseSet가 삭제되었습니다.

RecognitionConfig

인식기에 인식 요청 처리 방식을 지정하는 정보를 제공합니다.

필드
model

string

선택사항입니다. 인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다.

사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요.

language_codes[]

string

선택사항입니다. 제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 언어 태그는 사용되기 전에 BCP-47로 정규화됩니다. 'en-us'는 'en-US'가 됩니다.

각 모델에 지원되는 언어는 지원되는 모델 표에 나열되어 있습니다.

추가 언어를 제공하면 인식 결과에 감지되었을 가능성이 가장 높은 언어로 인식된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다.

features

RecognitionFeatures

사용 설정할 음성 인식 기능입니다.

adaptation

SpeechAdaptation

특정 단어 및 구문에 대한 인식기 예측에 가중치를 부여하는 음성 적응 컨텍스트입니다.

transcript_normalization

TranscriptNormalization

선택사항입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.

통합 필드 decoding_config. 인식을 위해 전송되는 오디오의 디코딩 매개변수입니다. decoding_config는 다음 중 하나여야 합니다.
auto_decoding_config

AutoDetectDecodingConfig

디코딩 매개변수를 자동으로 감지합니다. 지원되는 형식에 선호됩니다.

explicit_decoding_config

ExplicitDecodingConfig

명시적으로 지정된 디코딩 매개변수입니다. 헤더 없는 PCM 오디오(linear16, mulaw, alaw)를 사용하는 경우 필요합니다.

RecognitionFeatures

사용할 수 있는 인식 특성.

필드
profanity_filter

bool

true로 설정되면 서버는 욕설을 필터링하여 필터링된 각 단어의 첫 글자를 제외한 모든 문자를 별표로 바꿉니다(예: 'f***'). false로 설정하거나 생략하면 욕설이 필터링되지 않습니다.

enable_word_time_offsets

bool

true인 경우 최상위 결과에 단어 목록과 해당 단어의 시작 및 종료 타임스탬프가 포함됩니다. false인 경우 단어 수준의 시간 타임스탬프 정보가 반환되지 않습니다. 기본값은 false입니다.

enable_word_confidence

bool

true인 경우 최상위 결과에 단어 목록과 해당 단어의 신뢰도가 포함됩니다. false인 경우 단어 수준의 신뢰도 정보가 반환되지 않습니다. 기본값은 false입니다.

enable_automatic_punctuation

bool

true인 경우 인식 결과 가설에 구두점을 추가합니다. 이 기능은 특정 언어에서만 사용할 수 있습니다. 기본값 false 값은 결과 가설에 구두점을 추가하지 않습니다.

enable_spoken_punctuation

bool

통화에 대한 음성 구두점 동작입니다. true인 경우 음성 구두점을 요청에 있는 해당 기호로 대체합니다. 예를 들어 '안녕하세요 물음표'는 '안녕하세요?'가 됩니다. 지원이 필요하면 https://cloud.google.com/speech-to-text/docs/spoken-punctuation를 참조하세요. false인 경우 음성 구두점이 대체되지 않습니다.

enable_spoken_emojis

bool

통화의 음성 이모티콘 동작입니다. true인 경우 요청에 음성 이모티콘 형식이 추가됩니다. 이렇게 하면 음성 이모티콘이 최종 스크립트에서 해당하는 유니코드 기호로 바뀝니다. false인 경우 음성 이모티콘이 대체되지 않습니다.

multi_channel_mode

MultiChannelMode

다중 채널 오디오를 인식하는 모드입니다.

diarization_config

SpeakerDiarizationConfig

화자 분할을 사용 설정하고 애플리케이션에 더 적합한 분할을 위해 추가 매개변수를 설정하기 위한 구성입니다. 이 구성이 사용 설정되면 모든 연속 스트리밍 응답에서 최상위 대안의 오디오 시작부터 모든 단어를 전송합니다. 그 이유는 시간이 지남에 따라 모델이 대화에서 화자를 구별하는 방법을 학습하므로 화자 태그를 개선하기 위함입니다. 스트리밍이 아닌 요청의 경우 최종 SpeechRecognitionResult의 최상위 대안에만 분할 결과가 제공됩니다.

max_alternatives

int32

반환되는 인식 가설의 최대 수입니다. 서버는 max_alternatives보다 적은 수를 반환할 수 있습니다. 유효한 값은 0~30입니다. 0 또는 1 값은 최대 1개를 반환합니다. 생략하면 최대 1개가 반환됩니다.

MultiChannelMode

다중 채널 오디오를 인식하는 방법에 대한 옵션입니다.

열거형
MULTI_CHANNEL_MODE_UNSPECIFIED 다중 채널 모드의 기본값입니다. 오디오에 여러 채널이 포함된 경우 첫 번째 채널만 스크립트가 작성됩니다. 다른 채널은 무시됩니다.
SEPARATE_RECOGNITION_PER_CHANNEL 이 옵션을 선택하면 제공된 오디오의 각 채널이 독립적으로 스크립트가 작성됩니다. 선택한 modellatest_short인 경우 선택할 수 없습니다.

RecognitionOutputConfig

인식 출력의 구성 옵션입니다.

필드
output_format_config

OutputFormatConfig

선택사항입니다. output에 저장되는 결과 형식의 구성입니다. 지정되지 않은 경우 스크립트는 NATIVE 형식으로만 기록됩니다.

통합 필드 output.

output는 다음 중 하나여야 합니다.

gcs_output_config

GcsOutputConfig

이 메시지가 채워지면 인식 결과가 제공된 Google Cloud Storage URI에 기록됩니다.

inline_response_config

InlineOutputConfig

이 메시지가 채워지면 완료되었을 때 작업의 BatchRecognizeResponse 메시지에 인식 결과가 제공됩니다. 오디오 파일 한 개만 사용하여 BatchRecognize를 호출할 때만 지원됩니다.

RecognitionResponseMetadata

인식 요청 및 응답에 대한 메타데이터입니다.

필드
total_billed_duration

Duration

가능한 경우 해당 요청에 대해 청구되는 오디오 초입니다.

RecognizeRequest

Recognize 메서드에 대한 요청 메시지입니다. content 또는 uri를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 INVALID_ARGUMENT가 반환됩니다. 콘텐츠 한도를 참조하세요.

필드
recognizer

string

필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 _로 설정하여 사용할 수 있습니다.

config

RecognitionConfig

자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 config_mask 필드와 함께 사용하여 인식기 리소스의 default_recognition_config 일부를 재정의할 수 있습니다.

config_mask

FieldMask

이 인식 요청 중에 인식기의 default_recognition_config에 있는 값을 재정의하는 config의 필드 목록입니다. 마스크를 제공하지 않으면 config의 기본값이 아닌 모든 값 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(*)가 제공되면 config는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다.

통합 필드 audio_source. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source는 다음 중 하나여야 합니다.
content

bytes

RecognitionConfig에 지정된 대로 인코딩된 오디오 데이터 바이트입니다. JSON 표현은 base64를 사용하지만, proto 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다.

uri

string

RecognitionConfig에 지정된 대로 오디오 데이터 바이트가 포함된 파일을 가리키는 URI입니다. gzip 등으로 압축되지 않은 파일이어야 합니다. 현재 Google Cloud Storage URI만 지원되며 gs://bucket_name/object_name 형식으로 지정해야 합니다(다른 URI 형식은 INVALID_ARGUMENT 반환). 자세한 내용은 요청 URI를 참조하세요.

RecognizeResponse

Recognize 메서드에 대한 응답 메시지입니다.

필드
results[]

SpeechRecognitionResult

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

metadata

RecognitionResponseMetadata

인식에 관한 메타데이터입니다.

인식기

인식기 메시지입니다. 인식 구성 및 메타데이터를 저장합니다.

필드
name

string

출력 전용입니다. 식별자. 인식기의 리소스 이름입니다. 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다.

uid

string

출력 전용입니다. 인식기에 대해 시스템에서 할당된 고유 식별자입니다.

display_name

string

사용자가 설정할 수 있고 사람이 읽을 수 있는 인식기 이름입니다. 63자(영문 기준) 이하여야 합니다.

model
(deprecated)

string

선택사항입니다. 이 필드는 현재 지원 중단되었습니다. RecognitionConfig 메시지의 model 필드를 우선적으로 사용합니다.

인식 요청에 사용할 모델입니다. 최상의 결과를 얻으려면 도메인에 가장 적합한 모델을 선택합니다.

사용할 모델을 선택하는 방법에 대한 지침은 스크립트 작성 모델 문서, 각 리전에서 지원되는 모델은 지원되는 모델 표를 참조하세요.

language_codes[]
(deprecated)

string

선택사항입니다. 이 필드는 현재 지원 중단되었습니다. RecognitionConfig 메시지의 language_codes 필드를 우선적으로 사용합니다.

제공된 오디오의 언어로서 BCP-47 언어 태그입니다.

각 모델에 지원되는 언어는 지원되는 모델 표에 나열되어 있습니다.

추가 언어를 제공하면 인식 결과에 감지되었을 가능성이 가장 높은 언어로 인식된 인식이 포함됩니다. 인식 결과에는 오디오에서 감지된 언어의 언어 태그가 포함됩니다. 인식기를 만들거나 업데이트하면 이러한 값은 정규화된 BCP-47 형식으로 저장됩니다. 예를 들어 'en-us'는 'en-US'로 저장됩니다.

default_recognition_config

RecognitionConfig

이 인식기의 요청에 사용할 기본 구성입니다. RecognizeRequest.config 필드의 인라인 구성에서 덮어쓸 수 있습니다.

annotations

map<string, string>

사용자가 소량의 임의 데이터를 저장할 수 있습니다. 키와 값이 각각 63자(영문 기준) 이하여야 합니다. 주석 최대 100개.

state

State

출력 전용입니다. 인식기 수명 주기 상태입니다.

create_time

Timestamp

출력 전용입니다. 생성 시간입니다.

update_time

Timestamp

출력 전용입니다. 이 인식기가 수정된 가장 최근 시간입니다.

delete_time

Timestamp

출력 전용입니다. 이 인식기의 삭제가 요청된 시간입니다.

expire_time

Timestamp

출력 전용입니다. 이 인식기가 삭제되는 시간입니다.

etag

string

출력 전용입니다. 이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

reconciling

bool

출력 전용입니다. 이 인식기가 업데이트되는 중인지 여부입니다.

kms_key_name

string

출력 전용입니다. 인식기가 암호화되는 KMS 키 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}입니다.

kms_key_version_name

string

출력 전용입니다. 인식기가 암호화되는 KMS 키 버전 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/keyRings/{key_ring}/cryptoKeys/{crypto_key}/cryptoKeyVersions/{crypto_key_version}입니다.

상태

인식기의 수명 주기를 정의하는 상태 집합입니다.

열거형
STATE_UNSPECIFIED 기본값입니다. 상태가 생략된 경우에 이 값이 사용됩니다.
ACTIVE 인식기가 활성 상태이며 사용할 준비가 되었습니다.
DELETED 인식기가 삭제되었습니다.

SpeakerDiarizationConfig

화자 분할을 사용 설정하기 위한 구성입니다.

필드
min_speaker_count

int32

필수 항목입니다. 대화의 최소 화자 수입니다. 이 범위를 사용하면 시스템에서 자동으로 정확한 화자 수를 결정할 수 있으므로 더 유연하게 선택할 수 있습니다.

오디오에서 감지된 화자 수를 수정하려면 min_speaker_count = max_speaker_count를 설정합니다.

max_speaker_count

int32

필수 항목입니다. 대화의 최대 화자 수입니다. 유효한 값은 1~6입니다. min_speaker_count 이상이어야 합니다. 이 범위를 사용하면 시스템에서 자동으로 정확한 화자 수를 결정할 수 있으므로 더 유연하게 선택할 수 있습니다.

SpeechAdaptation

결과에서 특정 단어나 구문을 우선시하도록 음성 인식기에 '힌트'를 제공합니다. PhraseSets는 인라인 리소스 또는 기존 PhraseSet 리소스에 대한 참조로 지정될 수 있습니다.

필드
phrase_sets[]

AdaptationPhraseSet

인라인 또는 참조된 PhraseSets의 목록입니다.

custom_classes[]

CustomClass

인라인 CustomClasses 목록입니다. 기존 CustomClass 리소스는 PhraseSet에서 직접 참조할 수 있습니다.

AdaptationPhraseSet

기존 PhraseSets 리소스의 이름을 참조하는 문자열이거나 PhraseSet의 인라인 정의일 수 있는 편향 PhraseSet입니다.

필드

통합 필드 value입니다.

value는 다음 중 하나여야 합니다.

phrase_set

string

기존 PhraseSet 리소스의 이름입니다. 사용자에게 리소스에 대한 읽기 액세스 권한이 있어야 하며 리소스를 삭제해서는 안 됩니다.

inline_phrase_set

PhraseSet

인라인으로 정의된 PhraseSet입니다.

SpeechRecognitionAlternative

대체 가설로서 n-best 목록이라고도 합니다.

필드
transcript

string

사용자가 말한 단어를 나타내는 스크립트 텍스트입니다.

confidence

float

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 is_finaltrue로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

words[]

WordInfo

인식된 각 단어의 단어별 정보 목록입니다. SpeakerDiarizationConfig가 설정되면 오디오의 시작 부분부터 모든 단어가 표시됩니다.

SpeechRecognitionResult

오디오의 일부분에 해당되는 음성 인식 결과입니다.

필드
alternatives[]

SpeechRecognitionAlternative

하나 이상의 인식 가설을 포함할 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다.

channel_tag

int32

다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N의 경우 출력 값 범위는 1~N입니다.

result_end_offset

Duration

오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다.

language_code

string

출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

SrtOutputFileFormatConfig

이 유형에는 필드가 없습니다.

출력 구성 SubRip Text 형식의 자막 파일입니다.

StreamingRecognitionConfig

StreamingRecognize 요청에 대한 구성 정보를 제공합니다.

필드
config

RecognitionConfig

필수 항목입니다. 자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 config_mask 필드와 함께 사용하여 인식기 리소스의 default_recognition_config 일부를 재정의할 수 있습니다.

config_mask

FieldMask

이 인식 요청 중에 인식기의 default_recognition_config에 있는 값을 재정의하는 config의 필드 목록입니다. 마스크를 제공하지 않으면 config의 기본값이 아닌 모든 값 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(*)가 제공되면 config는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다.

streaming_features

StreamingRecognitionFeatures

스트리밍 오디오 인식 요청과 관련된 음성 인식 기능입니다.

StreamingRecognitionFeatures

스트리밍 인식 요청과 관련하여 사용 가능한 인식 기능입니다.

필드
enable_voice_activity_events

bool

true인 경우 음성 활동 음성 이벤트가 포함된 응답이 감지되고 반환됩니다.

interim_results

bool

중간 결과를 클라이언트로 스트리밍할지 여부입니다. true로 설정하면 중간 결과가 클라이언트로 스트리밍됩니다. 그렇지 않으면 최종 응답만 다시 스트리밍됩니다.

voice_activity_timeout

VoiceActivityTimeout

설정한 경우 마지막 VOICE_ACTIVITY 음성 이벤트가 전송된 후 지정된 시간이 지나면 서버에서 스트림을 자동으로 닫습니다. voice_activity_events 필드도 true로 설정해야 합니다.

VoiceActivityTimeout

음성 활동에 제한 시간을 설정할 수 있는 이벤트입니다.

필드
speech_start_timeout

Duration

음성이 시작되지 않는 경우 스트림의 제한 시간입니다. 이를 설정하고 스트림 시작 시 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다.

speech_end_timeout

Duration

음성이 종료된 후 스트림의 제한 시간입니다. 이를 설정하고 음성이 감지된 후 이 기간 동안 음성이 감지되지 않으면 서버에서 스트림을 닫습니다.

StreamingRecognitionResult

현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.

필드
alternatives[]

SpeechRecognitionAlternative

하나 이상의 인식 가설을 포함할 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다.

is_final

bool

false이면 이 StreamingRecognitionResult는 변경될 수 있는 중간 결과를 나타냅니다. true이면 음성 서비스에서 이 특정 StreamingRecognitionResult를 최종적으로 반환하는 경우입니다. 인식기는 스크립트 작성과 해당하는 오디오의 이 부분에 대해 더 이상 가설을 반환하지 않습니다.

stability

float

인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 임시 결과(is_final=false)에만 제공됩니다. 기본값 0.0은 stability가 설정되지 않았음을 나타내는 전송값입니다.

result_end_offset

Duration

오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다.

channel_tag

int32

다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N의 경우 출력 값 범위는 1~N입니다.

language_code

string

출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

StreamingRecognizeRequest

StreamingRecognize 메서드에 대한 요청 메시지입니다. 호출 한 번으로 여러 StreamingRecognizeRequest 메시지가 전송됩니다.

recognizer에서 참조하는 Recognizer에 완전히 지정된 요청 구성이 포함된 경우 스트림에는 audio만 설정된 메시지만 포함될 수 있습니다.

그렇지 않으면 첫 번째 메시지는 요청 구성을 완전히 지정하는 recognizerstreaming_config 메시지를 포함해야 하며 audio를 포함해서는 안 됩니다. 이후의 모든 메시지에는 audio만 설정되어야 합니다.

필드
recognizer

string

필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 _로 설정하여 사용할 수 있습니다.

통합 필드 streaming_request.

streaming_request는 다음 중 하나여야 합니다.

streaming_config

StreamingRecognitionConfig

이 인식 시도에 사용할 StreamingRecognitionConfig입니다. 제공할 경우 인식기에 저장된 기본 RecognitionConfig를 재정의합니다.

audio

bytes

인식할 인라인 오디오 바이트입니다. 이 필드의 최대 크기는 요청당 15KB입니다.

StreamingRecognizeResponse

StreamingRecognizeResponseStreamingRecognize가 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse 메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.

다음은 오디오를 처리하는 동안 반환될 수 있는 몇 가지 StreamingRecognizeResponse 예시입니다.

  1. results { alternatives { transcript: "tube" } stability: 0.01 }

  2. results { alternatives { transcript: "to be a" } stability: 0.01 }

  3. results { alternatives { transcript: "to be" } stability: 0.9 } results { alternatives { transcript: " or not to be" } stability: 0.01 }

  4. results { alternatives { transcript: "to be or not to be" confidence: 0.92 } alternatives { transcript: "to bee or not to bee" } is_final: true }

  5. results { alternatives { transcript: " that's" } stability: 0.01 }

  6. results { alternatives { transcript: " that is" } stability: 0.9 } results { alternatives { transcript: " the question" } stability: 0.01 }

  7. results { alternatives { transcript: " that is the question" confidence: 0.98 } alternatives { transcript: " that was the question" } is_final: true }

참고:

  • 위의 응답 중 is_final: true로 표시된 #4와 #7에만 최종 결과가 있습니다. 이들을 연결하면 전체 스크립트('to be or not to be that is the question')가 만들어집니다.

  • 나머지에는 중간 results가 포함됩니다. #3과 #6에는 두 개의 중간 results가 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다. UI 디자이너는 재량에 따라 안정성이 높은 results만 표시할 수 있습니다.

  • 위에 표시된 특정 stabilityconfidence 값은 참고용이며 실제 값은 다를 수 있습니다.

  • 각 응답에서 error, speech_event_type, 하나 이상의 반복되는 results 필드 중 하나만 설정됩니다.

필드
results[]

StreamingRecognitionResult

반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 is_final=true 결과(새로 결정된 부분)가 포함되며, 그 뒤에 0개 이상의 is_final=false 결과(중간 결과)가 나옵니다.

speech_event_type

SpeechEventType

음성 이벤트 유형을 나타냅니다.

speech_event_offset

Duration

오디오 시작과 이벤트 방출 사이의 타임스탬프입니다.

metadata

RecognitionResponseMetadata

인식에 관한 메타데이터입니다.

SpeechEventType

음성 이벤트 유형을 나타냅니다.

열거형
SPEECH_EVENT_TYPE_UNSPECIFIED 음성 이벤트가 지정되지 않았습니다.
END_OF_SINGLE_UTTERANCE 이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않고 gRPC 양방향 스트림을 닫습니다. 이 이벤트는 조기에 무음이 감지되어 강제 컷오프된 경우에만 전송됩니다. 이 이벤트는 latest_short model을 통해서만 제공됩니다.
SPEECH_ACTIVITY_BEGIN 이 이벤트는 서버가 스트림에서 사람 음성 활동의 시작을 감지했음을 나타냅니다. 스트림 전체에서 음성이 시작되고 중지되면 이 이벤트가 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다.
SPEECH_ACTIVITY_END 이 이벤트는 서버가 스트림에서 사람 음성 활동의 끝을 감지했음을 나타냅니다. 스트림 전체에서 음성이 시작되고 중지되면 이 이벤트가 여러 번 반환될 수 있습니다. 이 이벤트는 voice_activity_events가 true로 설정된 경우에만 전송됩니다.

TranscriptNormalization

스크립트 작성 정규화 구성입니다. 스크립트 작성 정규화를 사용하여 스크립트의 일부를 선택한 구문으로 자동으로 바꿉니다. StreamingRecognize의 경우 이 정규화는 안정적인 부분 스크립트(안정성 > 0.8)와 최종 스크립트에만 적용됩니다.

필드
entries[]

Entry

대체 항목 목록입니다. 한 번에 하나의 항목으로 교체됩니다. 예를 들어 ["cat" => "dog", "mountain cat" => "mountain dog"] 의 두 번째 항목은 항상 첫 번째 항목이 먼저 처리되기 때문에 적용되지 않습니다. 최대 100개 항목.

항목

단일 대체 구성.

필드
search

string

교체할 대상. 최대 길이는 100자(영문 기준)입니다.

replace

string

교체할 대상. 최대 길이는 100자(영문 기준)입니다.

case_sensitive

bool

검색 시 대소문자를 구분하는지 여부입니다.

UndeleteCustomClassRequest

UndeleteCustomClass 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제 취소할 CustomClass의 이름입니다. 형식: projects/{project}/locations/{location}/customClasses/{custom_class}

validate_only

bool

설정한 경우 요청을 검증하고 삭제 취소된 CustomClass를 미리 봅니다. 그러나 실제로 삭제를 취소하지는 않습니다.

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

UndeletePhraseSetRequest

UndeletePhraseSet 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제 취소할 PhraseSet의 이름입니다. 형식: projects/{project}/locations/{location}/phraseSets/{phrase_set}

validate_only

bool

설정한 경우 요청을 검증하고 삭제 취소된 PhraseSet를 미리 봅니다. 하지만 실제로 삭제를 취소하지는 않습니다.

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

UndeleteRecognizerRequest

UndeleteRecognizer 메서드에 대한 요청 메시지입니다.

필드
name

string

필수 항목입니다. 삭제 취소할 인식기의 이름입니다. 형식: projects/{project}/locations/{location}/recognizers/{recognizer}

validate_only

bool

설정한 경우 요청을 검증하고 삭제 취소된 인식기를 미리 봅니다. 그러나 실제로 삭제 취소하지는 않습니다.

etag

string

이 체크섬은 다른 필드 값에 따라 서버에서 계산됩니다. 진행하기 전 클라이언트에 최신 값이 포함되었는지 확인하기 위해 업데이트, 삭제 취소, 삭제 요청 시에 전송될 수 있습니다.

UpdateConfigRequest

UpdateConfig 메서드에 대한 요청 메시지입니다.

필드
config

Config

필수 항목입니다. 업데이트할 구성입니다.

구성의 name 필드는 업데이트할 구성을 식별하는 데 사용됩니다. 예상되는 형식은 projects/{project}/locations/{location}/config입니다.

update_mask

FieldMask

업데이트할 필드 목록입니다.

UpdateCustomClassRequest

UpdateCustomClass 메서드에 대한 요청 메시지입니다.

필드
custom_class

CustomClass

필수 항목입니다. 업데이트할 CustomClass입니다.

CustomClass의 name 필드는 업데이트할 CustomClass를 식별하는 데 사용됩니다. 형식은 projects/{project}/locations/{location}/customClasses/{custom_class}입니다.

update_mask

FieldMask

업데이트할 필드 목록입니다. 비어 있으면 모든 필드가 업데이트 대상으로 고려됩니다.

validate_only

bool

설정하면 요청을 검증하고 업데이트된 CustomClass를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다.

UpdatePhraseSetRequest

UpdatePhraseSet 메서드에 대한 요청 메시지입니다.

필드
phrase_set

PhraseSet

필수 항목입니다. 업데이트할 PhraseSet입니다.

PhraseSet의 name 필드는 업데이트할 PhraseSet를 식별하는 데 사용됩니다. 형식은 projects/{project}/locations/{location}/phraseSets/{phrase_set}입니다.

update_mask

FieldMask

업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 고려됩니다. *을 사용하여 전체 PhraseSet 리소스를 업데이트합니다.

validate_only

bool

설정한 경우 요청을 검증하고 업데이트된 PhraseSet를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다.

UpdateRecognizerRequest

UpdateRecognizer 메서드에 대한 요청 메시지입니다.

필드
recognizer

Recognizer

필수 항목입니다. 업데이트할 인식기입니다.

인식기의 name 필드는 업데이트할 인식기를 식별하는 데 사용됩니다. 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다.

update_mask

FieldMask

업데이트할 필드 목록입니다. 비어 있으면 기본값이 아닌 모든 값 필드가 업데이트 대상으로 고려됩니다. *를 사용하여 전체 인식기 리소스를 업데이트합니다.

validate_only

bool

설정한 경우 요청을 검증하고 업데이트된 인식기를 미리 봅니다. 하지만 실제로 업데이트하지는 않습니다.

VttOutputFileFormatConfig

이 유형에는 필드가 없습니다.

WebVTT 형식 자막 파일의 출력 구성입니다.

WordInfo

인식된 단어의 단어별 정보입니다.

필드
start_offset

Duration

오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 enable_word_time_offsetstrue인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

end_offset

Duration

오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 enable_word_time_offsetstrue인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

word

string

이 정보 세트에 해당하는 단어입니다.

confidence

float

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 is_finaltrue로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

speaker_label

string

오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. speaker_labelSpeakerDiarizationConfig가 주어진 경우에 설정되며 최상위 대안에만 설정됩니다.