색인
DictationService
(인터페이스)CreateDictationRequest
(메시지)CreateDictationStoreRequest
(메시지)CreateNoteRequest
(메시지)CreateSpeechConfigRequest
(메시지)DeleteDictationRequest
(메시지)DeleteDictationStoreRequest
(메시지)DeleteNoteRequest
(메시지)DeleteSpeechConfigRequest
(메시지)Dictation
(메시지)DictationStore
(메시지)GetDictationRequest
(메시지)GetDictationStoreRequest
(메시지)GetNoteRequest
(메시지)GetSpeechConfigRequest
(메시지)ListDictationStoresRequest
(메시지)ListDictationStoresResponse
(메시지)ListDictationsRequest
(메시지)ListDictationsResponse
(메시지)ListNotesRequest
(메시지)ListNotesResponse
(메시지)ListSpeechConfigsRequest
(메시지)ListSpeechConfigsResponse
(메시지)Note
(메시지)Note.Type
(열거형)RecognitionAudio
(메시지)RecognitionConfig
(메시지)RecognitionConfig.AudioEncoding
(열거형)RecognizeRequest
(메시지)RecognizeResponse
(메시지)RecognizedAction
(메시지)RecognizedActionParameter
(메시지)SpeechConfig
(메시지)SpeechRecognitionResult
(메시지)StreamingRecognitionResult
(메시지)StreamingRecognizeRequest
(메시지)StreamingRecognizeResponse
(메시지)StreamingRecognizeResponse.SpeechEventType
(열거형)TrainingConsent
(열거형)UpdateDictationRequest
(메시지)UpdateDictationStoreRequest
(메시지)UpdateNoteRequest
(메시지)UpdateSpeechConfigRequest
(메시지)WordInfo
(메시지)
DictationService
의료 음성기록 요청을 처리하기 위한 서비스입니다. 음성기록 데이터는 데이터 세트의 다른 의료 형식과 함께 저장됩니다. 각 데이터 세트에는 0개 이상의 형식 데이터 저장소(예: dictation stores
)가 있을 수 있습니다. 음성기록 오디오(Dictations
)와 스크립트 결과(Notes
)는 음성기록 저장소에 저장된 두 가지의 주요 데이터 유형입니다. SpeechConfigs
는 자동 음성 인식에 사용되는 매개변수를 인코딩합니다.
CreateDictation | |
---|---|
새
|
CreateDictationStore | |
---|---|
상위 데이터 세트 내에 새
|
CreateNote | |
---|---|
새
|
CreateSpeechConfig | |
---|---|
새
|
DeleteDictation | |
---|---|
|
DeleteDictationStore | |
---|---|
지정된
|
DeleteNote | |
---|---|
기존
|
DeleteSpeechConfig | |
---|---|
|
GetDictation | |
---|---|
|
GetDictationStore | |
---|---|
지정된
|
GetIamPolicy | |
---|---|
리소스의 액세스 제어 정책을 가져옵니다. 리소스가 없으면 NOT_FOUND 오류를 반환합니다. 리소스가 존재하지만 설정된 정책이 없는 경우 빈 정책을 반환합니다. 승인을 처리하려면 지정된 리소스에 대한 Google IAM 권한
|
GetNote | |
---|---|
|
GetSpeechConfig | |
---|---|
|
ListDictationStores | |
---|---|
지정된 데이터 세트의
|
ListDictations | |
---|---|
지정된
|
ListNotes | |
---|---|
필터링을 지원하는 지정된
|
ListSpeechConfigs | |
---|---|
필터링을 지원하는 지정된
|
Recognize | |
---|---|
비동기 음성 인식을 수행합니다.
|
SetIamPolicy | |
---|---|
리소스의 액세스 제어 정책을 설정합니다. 기존 정책을 대체합니다. 승인을 처리하려면 지정된 리소스에 대한 Google IAM 권한
|
StreamingRecognize | |
---|---|
클라이언트가 오디오를 보내는 동안 결과를 수신할 수 있도록 양방향 스트리밍 음성 인식을 수행합니다. gRPC API(REST 아님)를 통해서만 이 메서드를 사용할 수 있습니다. 이 메서드를 통해 전송된 오디오는 요청에 지정된
|
TestIamPermissions | |
---|---|
지정된 리소스에 대해 호출자가 보유한 권한을 반환합니다. 리소스가 없는 경우 NOT_FOUND 오류가 아니라 빈 권한 집합을 반환합니다. 이 API를 호출하는데 필요한 권한은 없습니다.
|
UpdateDictation | |
---|---|
|
UpdateDictationStore | |
---|---|
지정된
|
UpdateNote | |
---|---|
|
UpdateSpeechConfig | |
---|---|
|
CreateDictationRequest
오디오 샘플이 포함된 Dictation
레코드를 만들고 Dictation store
에 추가합니다.
필드 | |
---|---|
parent |
이 음성기록이 속한 음성기록 저장소의 이름입니다. 승인을 처리하려면 지정된 리소스
|
dictation |
생성할 음성기록입니다. |
return_mask |
반환 마스크는 반환되는 음성기록 리소스에 적용됩니다. |
CreateDictationStoreRequest
새 Dictation store
를 만듭니다.
필드 | |
---|---|
parent |
이 음성기록 저장소가 속한 데이터 세트의 이름입니다. 승인을 처리하려면 지정된 리소스
|
dictation_store_id |
생성 중인 음성기록 저장소의 ID입니다. 문자열은 다음 정규식 |
dictation_store |
이 음성기록 저장소의 구성 정보입니다. |
CreateNoteRequest
필드 | |
---|---|
parent |
이 메모가 속한 음성기록의 이름입니다. 승인을 처리하려면 지정된 리소스
|
note |
생성할 메모입니다. |
return_mask |
업데이트 마스크는 반환되는 메모 리소스에 적용됩니다. |
CreateSpeechConfigRequest
인식 구성을 포함하는 SpeechConfig
레코드를 만들고 이를 Dictation store
에 추가합니다.
필드 | |
---|---|
parent |
이 Speech_config가 속한 음성기록 저장소의 이름입니다. 승인을 처리하려면 지정된 리소스
|
speech_config |
SpeechConfig |
DeleteDictationRequest
지정된 Dictation store
에서 Dictation
을 삭제합니다.
필드 | |
---|---|
name |
삭제할 음성기록의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
DeleteDictationStoreRequest
지정된 Dictation store
를 삭제합니다.
필드 | |
---|---|
name |
삭제할 음성기록 저장소의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
DeleteNoteRequest
필드 | |
---|---|
name |
삭제할 메모의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
DeleteSpeechConfigRequest
지정된 Dictation store
에서 SpeechConfig
구성을 삭제합니다.
필드 | |
---|---|
name |
삭제할 SpeechConfig 구성의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
음성기록
오디오 음성기록
필드 | |
---|---|
name |
|
audio |
GetDictation 응답으로 반환될 때 바이너리로 표현된 오디오 콘텐츠를 포함합니다. 오디오 필드는 CreateDictation 및 UpdateDictation 응답에 포함되지 않습니다. |
create_time |
출력 전용. 음성기록이 생성된 시간입니다. |
training_consent |
음성 인식을 개선하기 위해 음성기록 및 메모를 사용하도록 허용하려면 허용을 지정합니다. 이 값은 상위 DictationStore의 training_consent 필드 값을 재정의합니다. 이 값을 생략하면 DictationStore의 training_consent 필드 값이 사용됩니다. |
DictationStore
음성기록, 메모, SpeechConfigs
와 같은 다른 음성기록 관련 리소스를 저장할 수 있는 음성기록 저장소입니다.
필드 | |
---|---|
name |
출력 전용. |
pubsub_topic |
음성기록 및 메모에 대한 변경사항 알림이 게시되는 Cloud Pub/Sub 주제입니다. PubsubMessage.Data는 음성기록 또는 메모 리소스 이름을 포함합니다. PubsubMessage.Attributes는 알림을 트리거한 작업을 기술하는 문자열이 있는 맵을 포함합니다(예: 'action':'CreateDictation'). 알림은 주제가 비어 있지 않을 때만 전송됩니다. 주제 이름은 범위가 프로젝트로 지정되어야 합니다. 이 API는 제공된 Cloud Pub/Sub 주제에 대해 게시자 권한을 가져야 합니다 적절한 권한이 없으면 알림을 전송하는 호출이 실패합니다. 클라이언트에서 제공됩니다. |
training_consent |
이 저장소의 리소스를 사용하여 음성 인식을 개선할 수 있도록 허용을 지정합니다. 포함된 DictationStore에 지정된 값을 재정의하는 Dictation.training_consent 필드를 사용하여 각 음성기록에 제외를 계속 지정할 수 있습니다. 지정하지 않으면 허용 안함으로 처리됩니다. |
labels |
음성기록 저장소를 구성하는 데 사용되는 사용자 제공 키-값 쌍입니다. 라벨 키의 길이는 1~63자(영문 기준)여야 하며 UTF-8 인코딩은 최대 128바이트여야 하고 다음 PCRE 정규 표현식을 준수해야 합니다. [\p{Ll}\p{Lo}][\p{Ll}\p{Lo}\p{N}_-]{0,62} 라벨값은 선택사항으로 길이는 1~63자(영문 기준)여야 하며 UTF-8 인코딩은 최대 128바이트여야 하고 다음 PCRE 정규 표현식을 준수해야 합니다. [\p{Ll}\p{Lo}\p{N}_-]{0,63} 특정 저장소와 연결할 수 있는 라벨은 64개 미만입니다. |
GetDictationRequest
지정된 Dictation store
에서 Dictation
을 가져옵니다.
필드 | |
---|---|
name |
검색할 음성기록의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
GetDictationStoreRequest
Dictation store
를 가져옵니다.
필드 | |
---|---|
name |
가져올 음성기록 저장소의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
GetNoteRequest
필드 | |
---|---|
name |
검색할 메모의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
GetSpeechConfigRequest
지정된 Dictation store
에서 SpeechConfig
레코드를 가져옵니다.
필드 | |
---|---|
name |
검색할 SpeechConfig 구성의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
ListDictationStoresRequest
지정된 데이터 세트의 Dictation stores
를 나열합니다.
필드 | |
---|---|
parent |
데이터세트 이름입니다. 승인을 처리하려면 지정된 리소스
|
page_size |
단일 응답으로 반환할 음성기록 저장소 수를 제한합니다. 0이면 기본 페이지 크기 100이 사용됩니다. |
page_token |
이전 목록 요청에서 반환된 next_page_token 값입니다(있는 경우). |
filter |
필터와 일치하는 저장소로 반환되는 저장소를 제한합니다. 구문: https://cloud.google.com/appengine/docs/standard/python/search/query_strings 라벨 필터링만 지원됩니다. 예: |
ListDictationStoresResponse
지정된 데이터 세트의 Dictation stores
를 나열합니다.
필드 | |
---|---|
dictation_stores[] |
반환된 음성기록이 저장됩니다. 요청의 page_size 값보다 많은 음성기록 저장소가 될 수 없습니다. |
next_page_token |
결과의 다음 페이지를 검색하는 토큰으로 목록에 더 이상 결과가 없으면 비어 있습니다. |
ListDictationsRequest
지정된 Dictation store
의 Dictations
를 나열합니다.
필드 | |
---|---|
parent |
음성기록을 검색할 음성기록 저장소의 이름입니다. 승인을 처리하려면 지정된 리소스
|
page_size |
단일 응답으로 반환할 음성기록 수를 제한합니다. 0이면 기본 페이지 크기 100이 사용됩니다. |
page_token |
이전 목록 요청에서 반환된 next_page_token 값입니다(있는 경우). |
filter |
필터와 일치하는 항목으로 음성기록을 제한합니다. 구문: https://cloud.google.com/appengine/docs/standard/python/search/query_strings 필터링에 사용할 수 있는 필드/함수: -use_for_speech_training |
ListDictationsResponse
지정된 Dictation store
의 Dictations
를 나열합니다.
필드 | |
---|---|
dictation_names[] |
반환된 음성기록 이름입니다. 요청의 page_size 값보다 큰 값은 없습니다. |
next_page_token |
결과의 다음 페이지를 검색하는 토큰으로 목록에 더 이상 결과가 없으면 비어 있습니다. |
ListNotesRequest
필드 | |
---|---|
parent |
메모를 검색할 음성기록의 이름입니다. 승인을 처리하려면 지정된 리소스
|
page_size |
단일 응답으로 반환할 메모 수를 제한합니다. 0이면 기본 페이지 크기 100이 사용됩니다. |
page_token |
이전 목록 요청에서 반환된 next_page_token 값입니다(있는 경우). |
filter |
필터와 일치하는 메모로 반환되는 메모를 제한합니다. 구문: https://cloud.google.com/appengine/docs/standard/python/search/query_strings 필터링에 사용 가능한 필드/함수: - type - origin - speech_config_name - speaker_external_id - speaker_human_name |
ListNotesResponse
필드 | |
---|---|
note_names[] |
반환된 메모 이름입니다. 요청의 page_size 값보다 큰 값은 없습니다. |
next_page_token |
결과의 다음 페이지를 검색하는 토큰으로 목록에 더 이상 결과가 없으면 비어 있습니다. |
ListSpeechConfigsRequest
지정된 Dictation store
의 SpeechConfigs
를 나열합니다.
필드 | |
---|---|
parent |
SpeechConfig를 검색할 음성기록 저장소의 이름입니다. 승인을 처리하려면 지정된 리소스
|
page_size |
단일 응답으로 반환할 SpeechConfig 수의 한도입니다. 0이면 기본 페이지 크기 100이 사용됩니다. |
page_token |
이전 목록 요청에서 반환된 next_page_token 값입니다(있는 경우). |
filter |
필터와 일치하는 것으로 반환되는 SpeechConfig를 제한합니다. 구문: https://cloud.google.com/appengine/docs/standard/python/search/query_strings 필터링에 사용할 수 있는 필드/함수: - speaker_external_id - speaker_human_name |
ListSpeechConfigsResponse
지정된 Dictation store
의 SpeechConfigs
를 나열합니다.
필드 | |
---|---|
speech_config_names[] |
반환된 SpeechConfigs 이름입니다. 요청의 page_size 값보다 큰 값은 없습니다. |
next_page_token |
결과의 다음 페이지를 검색하는 토큰으로 목록에 더 이상 결과가 없으면 비어 있습니다. |
참고
메모는 음성 인식 결과를 나타내거나 음성 인식 모델의 추가 학습 및 최종 수정 텍스트 변환의 저장을 용이하게 하기 위한 진실의 출처로 입력될 수 있습니다.
필드 | |
---|---|
name |
|
speech_config_name |
SpeechConfig는 |
type |
메모 유형 |
origin |
인식 결과의 출처(예: 특정 모델이 사용됨) |
speech_recognition_results[] |
대화에서 교대로 말하는 화자의 오디오 부분과 같이 오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
create_time |
메모가 생성된 시간입니다. 서버에서 설정됩니다. |
유형
메모 유형입니다.
열거형 | |
---|---|
TYPE_UNSPECIFIED |
유형이 잘못되었거나 지정되지 않았습니다. |
VERBATIM |
음성기록 오디오의 '정답'으로 사용할 수 있는 말 그대로의 완전 메모입니다. |
CORRECTION |
인식에 대한 호출로 생성된 메모를 수정합니다. |
DRAFT |
최종 메모를 생성하기 전에 업데이트할 수 있는 초안 메모입니다. |
FINAL |
최종 승인된 메모 |
AUTO_RECOGNIZED |
출력 전용. 인식에 대한 호출로 생성된 메모입니다. AUTO_RECOGNIZED 유형의 메모를 CreateNote로 만들 수 없습니다. AUTO_RECOGNIZED 유형의 메모는 UpdateNote로 업데이트할 수 없습니다. 메모는 AUTO_RECOGNIZED 유형을 만들기 위해 UpdateNote로 업데이트될 수 없습니다. |
RecognitionAudio
RecognitionConfig
에 지정된 인코딩으로 오디오 데이터를 포함합니다. content
또는 uri
를 제공해야 합니다. 둘 다 지정하거나 아무 것도 지정하지 않으면 google.rpc.Code.INVALID_ARGUMENT
가 반환됩니다. 오디오 한도를 참조하세요.
필드 | ||
---|---|---|
통합 필드 audio_source . 인라인 콘텐츠 또는 Cloud Storage URI인 오디오 소스입니다. audio_source 은 다음 중 하나여야 합니다. |
||
content |
|
|
uri |
|
RecognitionConfig
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다.
필드 | |
---|---|
encoding |
모든 |
sample_rate_hertz |
모든 |
audio_channel_count |
입력 오디오 데이터의 채널 수입니다. MULTI-CHANNEL 인식에만 이 값을 설정합니다. LINEAR16 및 FLAC의 유효한 값은 |
enable_separate_recognition_per_channel |
각 채널을 별도로 인식하려면 이 값을 명시적으로 ‘true’로 설정해야 하고 audio_channel_count > 1이어야 합니다. 인식 결과에는 결과가 속한 채널을 나타내는 channel_tag 필드가 포함됩니다. true가 아니면 첫 번째 채널만 인식됩니다. |
language_code |
제공된 오디오의 언어로서 BCP-47 언어 태그입니다. 'en-US'를 예로 들 수 있습니다. 현재 지원되는 언어 코드 목록은 언어 지원을 참조하세요. |
context_phrases[] |
음성 인식에서 인식할 수 있도록 단어 및 구문 '힌트'가 포함된 문자열 목록입니다. 예를 들어 사용자가 특정 명령을 자주 사용하는 경우 해당 단어와 구문의 정확성을 높이는 데 사용할 수 있습니다. 인식기의 어휘에 단어를 추가하는 데 사용할 수도 있습니다. |
model |
특정 요청에 선택할 수 있는 모델입니다. 모델을 명시적으로 지정하지 않으면 기본값인 'default'가 사용됩니다. |
AudioEncoding
요청에서 전송한 오디오 데이터의 인코딩입니다.
모든 인코딩은 단일 채널(모노) 오디오만 지원합니다.
최상의 결과를 얻으려면 오디오 소스를 무손실 인코딩(FLAC
또는 LINEAR16
)으로 캡처하고 전송해야 합니다. 특히 주변 소음이 있는 경우 손실 코덱을 사용하여 오디오를 캡처하거나 전송하는 경우 음성 인식의 정확도가 떨어질 수 있습니다. 손실 코덱에는 MULAW
, AMR
, AMR_WB
, OGG_OPUS
, SPEEX_WITH_HEADER_BYTE
등이 있습니다.
FLAC
및 WAV
오디오 파일 형식에는 포함된 오디오 콘텐츠를 설명하는 헤더가 포함됩니다. LINEAR16
또는 MULAW
인코딩 오디오가 포함된 WAV
파일에 대한 인식을 요청할 수 있습니다. 요청에 FLAC
또는 WAV
오디오 파일 형식을 전송하는 경우 AudioEncoding
를 지정할 필요가 없습니다. 오디오 인코딩 형식은 파일 헤더에서 결정됩니다. FLAC
또는 WAV
오디오를 보낼 때 AudioEncoding
을 지정하는 경우 인코딩 구성은 오디오 헤더에 설명된 인코딩과 일치해야 합니다. 그렇지 않으면 요청은 google.rpc.Code.INVALID_ARGUMENT
오류 코드를 반환합니다.
열거형 | |
---|---|
ENCODING_UNSPECIFIED |
지정되지 않음 |
LINEAR16 |
압축되지 않은 16비트 부호 Little Endian 샘플(리니어 PCM)입니다. |
FLAC |
FLAC (무료 무손실 오디오 코덱)은 손실이 발생하지 않아 인식 성능이 저하되지 않고 필요한 대역폭이 LINEAR16 의 약 절반에 불과하므로 이 인코딩이 권장됩니다. FLAC 스트림 인코딩은 16비트와 24비트 샘플을 지원하지만 STREAMINFO 의 모든 필드가 지원되지는 않습니다. |
MULAW |
G.711 PCMU/mu-law를 사용하여 14비트 오디오 샘플을 압축하는 8비트 샘플입니다. |
AMR |
적응형 다중 속도 협대역 코덱입니다. sample_rate_hertz 는 8,000이어야 합니다. |
AMR_WB |
적응형 다중 속도 광대역 코덱입니다. sample_rate_hertz 는 16,000이어야 합니다. |
OGG_OPUS |
Ogg 컨테이너의 Opus 인코딩 오디오 프레임(OggOpus)입니다. sample_rate_hertz 는 8,000, 12,000, 16,000, 24,000, 48,000 중 하나여야 합니다. |
SPEEX_WITH_HEADER_BYTE |
손실이 발생한 인코딩을 사용하지 않는 것이 좋습니다만, 매우 낮은 비트 전송률 인코딩이 필요한 경우 Speex 인코딩보다 OGG_OPUS 를 사용하는 것이 좋습니다. Cloud Speech API에서 지원하는 Speex 인코딩에는 MIME 유형 audio/x-speex-with-header-byte 의 경우와 같이 각 블록에 헤더 바이트가 있습니다. 이는 RFC 5574에 정의된 RTP Speex 인코딩의 변이입니다. 스트림은 RTP 패킷당 하나의 블록으로 연속된 블록입니다. 각 블록은 블록 길이가 바이트 단위로 포함된 바이트로 시작되며 RFC 5574에 지정된 정수 바이트 수(옥텟)로 패딩된 하나 이상의 Speex 데이터 프레임이 뒤따릅니다. 즉, 각 RTP 헤더는 블록 길이를 포함하는 단일 바이트로 바뀝니다. Speex 광대역만 지원되며, sample_rate_hertz 는 16,000이어야 합니다. |
RecognizeRequest
Dictation
을 음성 인식 엔진으로 전송합니다. Note
레코드를 만들어 Dictation
에 추가합니다.
필드 | |
---|---|
name |
텍스트 변환할 음성기록의 리소스 이름입니다. 승인을 처리하려면 지정된 리소스
|
speech_config_name |
인식 요청에 사용할 SpeechConfig 구성입니다. 음성 구성을 전체 REST 경로 승인을 처리하려면 지정된 리소스
|
enable_voice_actions |
인식 엔진이 음성 작업을 찾아야 하는지 여부를 결정합니다. |
RecognizeResponse
Dictation
에서 Recognize 메서드의 최종 응답입니다. 이 구조는 Recognize
실행의 세부 출력을 기술하기 위해 google.longrunning.Operation.result.response
에 포함됩니다. 실행이 완료된 경우에만 포함됩니다.
필드 | |
---|---|
note_name |
인식 호출에서 생성된 |
RecognizedAction
인식 중에 감지된 음성 작업입니다.
가능한 작업이 아래 테이블에 나열됩니다.
음성 작업 | RecognizedAction |
텍스트 선택 예시: 환자에게 헤모글로빈 선택 |
{ "action_name": "TextSelection", "confidence": 1.0, "param_results": [ { "parameter_name": "FromText", "value": "hemoglobin" }, { "parameter_name": "ToText", "value": "patient" } ] } |
선택한 텍스트 삭제 예시: 선택 해제 |
{ "action_name": "RemoveSelection", "confidence": 1.0 } |
마지막 발언 또는 현재 문장 삭제 예시: 실행 취소 |
{ "action_name": "Undo", "confidence": 0.8 } |
새 줄 삽입 예시: 새 줄 |
{ "action_name": "NewLine", "confidence": 1.0 } |
새 단락 삽입 예시: 새 단락 |
{ "action_name": "NewParagraph", "confidence": 1.0 } |
이전 단어로 커서 이동 예시: 헤모글로빈 앞에 삽입 |
{ "action_name": "InsertAt", "confidence": 0.5, "param_results": [ { "parameter_name": "InsertLocation", "value": "before" }, { "parameter_name": "InsertTarget", "value": "hemoglobin" } ] } |
커서 이동 예시: 문장 끝으로 이동 |
{ "action_name": "MoveCursor", "confidence": 0.6, "param_results": [ { "parameter_name": "MoveLocation", "value": "end" }, { "parameter_name": "MoveTarget", "value": "sentence" } ] } |
커서가 있는 목록 만들기 예시: 번호 1 낮은 bp 삽입 |
{ "action_name": "CreateList", "confidence": 0.6, "param_results": [ { "parameter_name": "ListNum", "value": "1" }, { "parameter_name": "InsertText", "value": "low pb" } ] } |
필드 | |
---|---|
action_name |
감지된 작업의 이름입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 지정된 음성 작업일 가능성이 높아집니다. |
params[] |
감지된 작업의 매개변수 목록입니다. |
RecognizedActionParameter
작업 매개변수를 나타냅니다.
필드 | |
---|---|
parameter_name |
작업 매개변수의 이름입니다 (예시: |
value |
작업 매개변수의 값입니다 (예시: |
SpeechConfig
학습 및 적용을 지원하는 구성 기록입니다. 실제 사람인 화자는 SpeechConfig 구성을 공유하거나 각각 별도의 구성을 보유할 수 있습니다.
필드 | |
---|---|
name |
|
recognition_config |
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. |
speaker_external_id |
특정 구성을 선택하는 데 사용할 수 있는 외부 시스템의 ID입니다. |
speaker_human_name |
제공된 사람의 이름입니다. |
SpeechRecognitionResult
오디오의 일부분에 해당되는 음성 인식 결과입니다.
필드 | |
---|---|
transcript |
출력 전용. 사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. |
confidence |
출력 전용. 신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 |
words[] |
출력 전용. 인식된 각 단어의 단어별 정보 목록입니다. |
channel_tag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audio_channel_count = N이라면 출력 값의 범위는 '1'~'N'입니다. |
action |
인식 중에 음성 작업이 감지되었습니다. |
StreamingRecognitionResult
현재 처리 중인 오디오의 일부분에 해당하는 스트리밍 음성 인식 결과입니다.
필드 | |
---|---|
speech_recognition_result |
출력 전용. 음성 인식의 증분 결과. |
is_final |
출력 전용. |
stability |
출력 전용. 인식기가 이 중간 결과에 대한 추측을 변경하지 않을 가능성에 대한 추정치입니다. 값의 범위는 0.0(완전히 불안정함)~1.0(완전히 안정적임)입니다. 이 필드는 중간 결과( |
StreamingRecognizeRequest
[StreamingRecognize]
[google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize] 메서드에 대해 클라이언트에서 보낸 최상위 메시지입니다. 여러 StreamingRecognizeRequest
메시지가 전송됩니다. 첫 번째 메시지는 stream_setup_info
메시지를 포함해야 하며 audio_content
데이터를 포함해서는 안 됩니다. 이후의 모든 메시지는 audio_content
데이터를 포함해야 하며 stream_setup_info
메시지를 포함해서는 안 됩니다.
필드 | ||
---|---|---|
통합 필드 streaming_request . 스트리밍 설정 정보 또는 오디오 콘텐츠인 스트리밍 요청입니다. streaming_request 은 다음 중 하나여야 합니다. |
||
stream_setup_info |
인식기에 요청 처리 방식을 지정하는 정보를 제공합니다. 첫 번째 |
|
audio_content |
인식할 오디오 데이터입니다. 오디오 데이터의 순차적 청크는 순차적 |
StreamingRecognizeResponse
StreamingRecognizeResponse
는 [StreamingRecognize]
[google.cloud.healthcare.v1alpha2.dictation.StreamingRecognize]에서 클라이언트로 반환하는 유일한 메시지입니다. 0개 이상의 StreamingRecognizeResponse
메시지가 클라이언트로 다시 스트리밍됩니다. 인식 가능한 오디오가 없고 single_utterance
가 false로 설정되어 있으면 메시지가 클라이언트로 다시 스트리밍되지 않습니다.
다음은 오디오를 처리하는 동안 반환될 수 있는 일련의 StreamingRecognizeResponse
예시입니다.
results { speech_recognition_result { transcript: "tube" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be a" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be" } stability: 0.9 } results { speech_recognition_result { transcript: " or not to be" } stability: 0.01 }
results { speech_recognition_result { transcript: "to be or not to be" confidence: 0.92 } is_final: true }
results { speech_recognition_result { transcript: " that's" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is" } stability: 0.9 } results { speech_recognition_result { transcript: " the question" } stability: 0.01 }
results { speech_recognition_result { transcript: " that is the question" confidence: 0.98 } is_final: true }
참고
위의 응답 중
is_final: true
필드로 표시된 두 응답(#4 및 #7)에만 최종 결과가 있습니다. 응답을 연결하면 전체 스크립트가 만들어집니다.다른 응답에는 중간
results
가 포함됩니다. #3과 #6에는 두 개의 중간results
이 포함되어 있습니다. 첫 번째 부분은 안정성이 높고 변경될 가능성이 낮습니다. 두 번째 부분은 안정성이 낮으며 변경될 가능성이 매우 높습니다.위에 표시된 특정
stability
및confidence
값은 참고용이며 실제 값은 다를 수 있습니다.각 응답에서
error
,speech_event_type
, 하나 이상의 반복되는results
필드 중 하나만 설정됩니다.
필드 | |
---|---|
error |
출력 전용. 스트리밍 작업과 관련된 오류 상태입니다(있는 경우). |
results[] |
출력 전용. 반복되는 이 목록에는 현재 처리 중인 오디오의 연속 부분에 해당하는 0개 이상의 결과가 포함됩니다. 0개 이상의 |
speech_event_type |
출력 전용. 음성 이벤트 유형을 나타냅니다. |
SpeechEventType
음성 이벤트 유형을 나타냅니다.
열거형 | |
---|---|
SPEECH_EVENT_TYPE_UNSPECIFIED |
음성 이벤트가 지정되지 않았습니다. |
END_OF_SINGLE_UTTERANCE |
이 이벤트는 서버가 사용자 발화의 끝을 감지했으며 추가 발언을 기대하지 않음을 나타냅니다. 따라서 서버는 추가 오디오를 처리하지 않습니다. 하지만 나중에 추가 결과가 반환될 수 있습니다. 클라이언트는 추가 오디오 데이터 전송을 중단하고 gRPC 연결을 반쯤 닫은 후 서버가 gRPC 연결을 닫을 때까지 추가 결과를 기다려야 합니다. 이 이벤트는 single_utterance 가 true 로 설정된 경우에만 전송되며 다른 방식으로 사용되지 않습니다. |
TrainingConsent
음성 인식을 향상시키기 위해 제공되는 동의 유형을 지정합니다.
열거형 | |
---|---|
TRAINING_CONSENT_UNSPECIFIED |
동의가 지정되지 않았습니다. |
ALLOW |
학습에 동의합니다. |
DISALLOW |
학습에 동의하지 않습니다. |
UpdateDictationRequest
지정된 Dictation
업데이트를 요청합니다.
필드 | |
---|---|
dictation |
서버의 리소스를 업데이트하는 음성기록 리소스입니다. update_mask에 나열된 필드만 필요하거나 적용됩니다. 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트 마스크가 리소스에 적용됩니다. |
UpdateDictationStoreRequest
Dictation store
를 업데이트합니다.
필드 | |
---|---|
dictation_store |
서버의 리소스를 업데이트하는 음성기록 저장소 리소스입니다. update_mask에 나열된 필드만 적용됩니다. 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트 마스크가 리소스에 적용됩니다. |
UpdateNoteRequest
지정된 Note
업데이트를 요청합니다(예시: SpeechConfig 업데이트).
필드 | |
---|---|
note |
서버의 리소스를 업데이트하는 메모 리소스입니다. update_mask에 나열된 필드만 필요하거나 적용됩니다. AUTO_RECOGNIZED 유형의 메모는 업데이트할 수 없습니다. 메모는 AUTO_RECOGNIZED 유형으로 업데이트할 수 없습니다. 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트 마스크가 리소스에 적용됩니다. |
UpdateSpeechConfigRequest
지정된 SpeechConfig
업데이트를 요청합니다(예시: 언어 업데이트).
필드 | |
---|---|
speech_config |
서버의 리소스를 업데이트하는 SpeechConfig 리소스입니다. update_mask에 나열된 필드만 필요하거나 적용됩니다. 승인을 처리하려면 지정된 리소스
|
update_mask |
업데이트 마스크가 리소스에 적용됩니다. |
WordInfo
인식된 단어의 단어별 정보입니다.
필드 | |
---|---|
start_time_offset |
출력 전용. 오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 |
end_time_offset |
출력 전용. 오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 |
word |
출력 전용. 이 정보 세트에 해당하는 단어입니다. |
confidence |
출력 전용. 신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 |