Method: projects.locations.recognizers.recognize

동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.

HTTP 요청

POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize

여기서 {endpoint}지원되는 서비스 엔드포인트 중 하나입니다.

URL은 gRPC 트랜스코딩 구문을 사용합니다.

경로 매개변수

매개변수
recognizer

string

필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 projects/{project}/locations/{location}/recognizers/{recognizer}입니다. 비어 있는 암시적 인식기를 사용하려면 {recognizer} 세그먼트를 _로 설정하여 사용할 수 있습니다.

요청 본문

요청 본문에는 다음과 같은 구조의 데이터가 포함됩니다.

JSON 표현
{
  "config": {
    object (RecognitionConfig)
  },
  "configMask": string,

  // Union field audio_source can be only one of the following:
  "content": string,
  "uri": string
  // End of list of possible types for union field audio_source.
}
필드
config

object (RecognitionConfig)

자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 configMask 필드와 함께 사용하여 인식기 리소스의 defaultRecognitionConfig 일부를 재정의할 수 있습니다.

configMask

string (FieldMask format)

이 인식 요청 중에 인식기의 defaultRecognitionConfig에 있는 값을 재정의하는 config의 필드 목록입니다. 마스크를 제공하지 않으면 config의 기본값이 아닌 모든 값 필드가 이 인식 요청에 대한 인식기의 값을 재정의합니다. 마스크가 제공되면 마스크에 나열된 필드만 이 인식 요청에 대한 인식기의 구성을 재정의합니다. 와일드 카드(*)가 제공되면 config는 이 인식 요청에 대한 인식기의 구성을 완전히 재정의하고 바꿉니다.

정규화된 필드 이름의 쉼표로 구분된 목록입니다. 예: "user.displayName,photo"

통합 필드 audio_source. 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source는 다음 중 하나여야 합니다.
content

string (bytes format)

RecognitionConfig에 지정된 대로 인코딩된 오디오 데이터 바이트입니다. JSON 표현은 base64를 사용하지만, proto 버퍼는 모든 bytes 필드와 마찬가지로 순수 바이너리 표현을 사용합니다.

base64 인코딩 문자열입니다.

uri

string

RecognitionConfig에 지정된 대로 오디오 데이터 바이트가 포함된 파일을 가리키는 URI입니다. gzip 등으로 압축되지 않은 파일이어야 합니다. 현재 Google Cloud Storage URI만 지원되며 gs://bucket_name/object_name 형식으로 지정해야 합니다(다른 URI 형식은 INVALID_ARGUMENT 반환). 자세한 내용은 요청 URI를 참조하세요.

응답 본문

recognizers.recognize 메서드에 대한 응답 메시지입니다.

성공한 경우 응답 본문은 다음과 같은 구조의 데이터를 포함합니다.

JSON 표현
{
  "results": [
    {
      object (SpeechRecognitionResult)
    }
  ],
  "metadata": {
    object (RecognitionResponseMetadata)
  }
}
필드
results[]

object (SpeechRecognitionResult)

오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다.

metadata

object (RecognitionResponseMetadata)

인식에 관한 메타데이터입니다.

승인 범위

다음 OAuth 범위가 필요합니다.

  • https://www.googleapis.com/auth/cloud-platform

자세한 내용은 인증 개요를 참조하세요.

IAM 권한

recognizer 리소스에 대해서는 다음 IAM 권한이 필요합니다.

  • speech.recognizers.recognize

자세한 내용은 IAM 문서를 참조하세요.

SpeechRecognitionResult

오디오의 일부분에 해당되는 음성 인식 결과입니다.

JSON 표현
{
  "alternatives": [
    {
      object (SpeechRecognitionAlternative)
    }
  ],
  "channelTag": integer,
  "resultEndOffset": string,
  "languageCode": string
}
필드
alternatives[]

object (SpeechRecognitionAlternative)

하나 이상의 인식 가설이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다.

channelTag

integer

다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. audioChannelCount = N이라면 출력 값 범위는 1~N입니다.

resultEndOffset

string (Duration format)

오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다.

소수점 아래가 최대 9자리까지이고 's'로 끝나는 초 단위 기간입니다. 예를 들면 "3.5s"입니다.

languageCode

string

출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다.

SpeechRecognitionAlternative

대체 가설로서 n-best 목록이라고도 합니다.

JSON 표현
{
  "transcript": string,
  "confidence": number,
  "words": [
    {
      object (WordInfo)
    }
  ]
}
필드
transcript

string

사용자가 말한 단어를 나타내는 스크립트 텍스트입니다.

confidence

number

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 isFinaltrue로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

words[]

object (WordInfo)

인식된 각 단어의 단어별 정보 목록입니다. SpeakerDiarizationConfig가 설정되면 오디오의 시작 부분부터 모든 단어가 표시됩니다.

WordInfo

인식된 단어의 단어별 정보입니다.

JSON 표현
{
  "startOffset": string,
  "endOffset": string,
  "word": string,
  "confidence": number,
  "speakerLabel": string
}
필드
startOffset

string (Duration format)

오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 enableWordTimeOffsetstrue인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

소수점 아래가 최대 9자리까지이고 's'로 끝나는 초 단위 기간입니다. 예를 들면 "3.5s"입니다.

endOffset

string (Duration format)

오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 enableWordTimeOffsetstrue인 경우에만 설정되며 최상위 가설에만 설정됩니다. 시험용 기능이며 시간 오프셋의 정확성은 일정하지 않을 수 있습니다.

소수점 아래가 최대 9자리까지이고 's'로 끝나는 초 단위 기간입니다. 예를 들면 "3.5s"입니다.

word

string

이 정보 세트에 해당하는 단어입니다.

confidence

number

신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 isFinaltrue로 설정된 스트리밍 결과의 최상위 대안에 대해서만 설정됩니다. 이 필드는 정확성이 보장되지 않으며 경우에 따라서는 제공되지 않을 수도 있습니다. 기본값 0.0은 confidence가 설정되지 않았음을 나타내는 센티널 값입니다.

speakerLabel

string

오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. speakerLabelSpeakerDiarizationConfig가 주어진 경우에 설정되며 최상위 대안에만 설정됩니다.

RecognitionResponseMetadata

인식 요청 및 응답에 대한 메타데이터입니다.

JSON 표현
{
  "totalBilledDuration": string
}
필드
totalBilledDuration

string (Duration format)

가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다.

소수점 아래가 최대 9자리까지이고 's'로 끝나는 초 단위 기간입니다. 예를 들면 "3.5s"입니다.