Method: projects.locations.recognizers.recognize

HTTP 요청
경로 매개변수
요청 본문
- JSON 표현
응답 본문
- JSON 표현
승인 범위
IAM 권한
SpeechRecognitionResult
- JSON 표현
SpeechRecognitionAlternative
- JSON 표현
WordInfo
- JSON 표현
RecognitionResponseMetadata
- JSON 표현

동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.

HTTP 요청

POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize

여기서 {endpoint}는 지원되는 서비스 엔드포인트 중 하나입니다.

URL은 gRPC 트랜스코딩 구문을 사용합니다.

경로 매개변수

매개변수

매개변수
`recognizer`	`string` 필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 `projects/{project}/locations/{location}/recognizers/{recognizer}`입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 `_`로 설정하여 사용할 수 있습니다.

recognizer

string

필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 _로 설정하여 사용할 수 있습니다.

요청 본문

요청 본문에는 다음과 같은 구조의 데이터가 포함됩니다.

JSON 표현

JSON 표현
{ "config": { object (`RecognitionConfig`) }, "configMask": string, // Union field `audio_source` can be only one of the following: "content": string, "uri": string // End of list of possible types for union field `audio_source`. }

{
  "config": {
    object (RecognitionConfig)
  },
  "configMask": string,

  // Union field audio_source can be only one of the following:
  "content": string,
  "uri": string
  // End of list of possible types for union field audio_source.
}

필드
`config`	`object (RecognitionConfig)` 자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 `configMask` 필드와 함께 사용하여 인식기 리소스의 `defaultRecognitionConfig` 일부를 재정의할 수 있습니다.
`configMask`	`string (FieldMask format)` 이 인식 요청 중에 인식기의 `defaultRecognitionConfig`에 있는 값을 재정의하는 `config`의 필드 목록입니다. 마스크를 제공하지 않으면 `config`의 기본값이 아닌 모든 값 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(`*`)가 제공되면 `config`는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다. 정규화된 필드 이름의 쉼표로 구분된 목록입니다. 예: `"user.displayName,photo"`
통합 필드 `audio_source`. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. `audio_source`는 다음 중 하나여야 합니다.
`content`	`string (bytes format)` `RecognitionConfig`에 지정된 대로 인코딩된 오디오 데이터 바이트입니다. JSON 표현은 base64를 사용하지만, proto 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다. base64 인코딩 문자열입니다.
`uri`	`string` `RecognitionConfig`에 지정된 대로 오디오 데이터 바이트가 포함된 파일을 가리키는 URI입니다. gzip 등으로 압축되지 않은 파일이어야 합니다. 현재 Google Cloud Storage URI만 지원되며 `gs://bucket_name/object_name` 형식으로 지정해야 합니다(다른 URI 형식은 `INVALID_ARGUMENT` 반환). 자세한 내용은 요청 URI를 참조하세요.

응답 본문

recognizers.recognize 메서드에 대한 응답 메시지입니다.

성공한 경우 응답 본문은 다음과 같은 구조의 데이터를 포함합니다.

JSON 표현
{ "results": [ { object (`SpeechRecognitionResult`) } ], "metadata": { object (`RecognitionResponseMetadata`) } }

필드

필드
`results[]`	`object (SpeechRecognitionResult)` 오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.
`metadata`	`object (RecognitionResponseMetadata)` 인식에 관한 메타데이터입니다.

results[]

object (SpeechRecognitionResult)

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

metadata

object (RecognitionResponseMetadata)

인식에 관한 메타데이터입니다.

승인 범위

다음 OAuth 범위가 필요합니다.

https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

recognizer 리소스에 대해서는 다음 IAM 권한이 필요합니다.

speech.recognizers.recognize

자세한 내용은 IAM 문서를 참조하세요.

SpeechRecognitionResult

오디오의 일부분에 해당되는 음성 인식 결과입니다.

JSON 표현
{ "alternatives": [ { object (`SpeechRecognitionAlternative`) } ], "channelTag": integer, "resultEndOffset": string, "languageCode": string }

필드
`alternatives[]`	`object (SpeechRecognitionAlternative)` 하나 이상의 인식 가설이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다.
`channelTag`	`integer` 다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. `audioChannelCount` = `N`이라면 출력 값 범위는 `1`~`N`입니다.
`resultEndOffset`	`string (Duration format)` 오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. 소수점 아래가 최대 9자리까지이고 '`s`'로 끝나는 초 단위 기간입니다. 예를 들면 `"3.5s"`입니다.
`languageCode`	`string` 출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

SpeechRecognitionAlternative

대체 가설로서 n-best 목록이라고도 합니다.

JSON 표현
{ "transcript": string, "confidence": number, "words": [ { object (`WordInfo`) } ] }

필드

필드
`transcript`	`string` 사용자가 말한 단어를 나타내는 스크립트 텍스트입니다.
`confidence`	`number` 신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 `isFinal`이 `true`로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 `confidence`가 설정되지 않았음을 나타내는 센티널 값입니다.
`words[]`	`object (WordInfo)` 인식된 각 단어의 단어별 정보 목록입니다. `SpeakerDiarizationConfig`가 설정되면 오디오의 시작 부분부터 모든 단어가 표시됩니다.

transcript

string

사용자가 말한 단어를 나타내는 스크립트 텍스트입니다.

confidence

number

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 isFinal이 true로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

words[]

object (WordInfo)

인식된 각 단어의 단어별 정보 목록입니다. SpeakerDiarizationConfig가 설정되면 오디오의 시작 부분부터 모든 단어가 표시됩니다.

WordInfo

인식된 단어의 단어별 정보입니다.

JSON 표현
{ "startOffset": string, "endOffset": string, "word": string, "confidence": number, "speakerLabel": string }

필드
`startOffset`	`string (Duration format)` 오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 `enableWordTimeOffsets`가 `true`인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다. 소수점 아래가 최대 9자리까지이고 '`s`'로 끝나는 초 단위 기간입니다. 예를 들면 `"3.5s"`입니다.
`endOffset`	`string (Duration format)` 오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 `enableWordTimeOffsets`가 `true`인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다. 소수점 아래가 최대 9자리까지이고 '`s`'로 끝나는 초 단위 기간입니다. 예를 들면 `"3.5s"`입니다.
`word`	`string` 이 정보 세트에 해당하는 단어입니다.
`confidence`	`number` 신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 `isFinal`이 `true`로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 `confidence`가 설정되지 않았음을 나타내는 센티널 값입니다.
`speakerLabel`	`string` 오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. `speakerLabel`은 `SpeakerDiarizationConfig`가 주어진 경우에 설정되며 최상위 대안에만 설정됩니다.

RecognitionResponseMetadata

인식 요청 및 응답에 대한 메타데이터입니다.

JSON 표현
{ "totalBilledDuration": string }

필드

totalBilledDuration

string (Duration format)

가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다.

소수점 아래가 최대 9자리까지이고 's'로 끝나는 초 단위 기간입니다. 예를 들면 "3.5s"입니다.