- HTTP 요청
- 경로 매개변수
- 요청 본문
- 응답 본문
- 승인 범위
- IAM 권한
- SpeechRecognitionResult
- SpeechRecognitionAlternative
- WordInfo
- RecognitionResponseMetadata
동기 음성 인식을 수행합니다. 모든 오디오가 전송되고 처리된 후 결과를 수신합니다.
HTTP 요청
POST https://{endpoint}/v2/{recognizer=projects/*/locations/*/recognizers/*}:recognize
여기서 {endpoint}
는 지원되는 서비스 엔드포인트 중 하나입니다.
URL은 gRPC 트랜스코딩 구문을 사용합니다.
경로 매개변수
매개변수 | |
---|---|
recognizer |
필수 항목입니다. 인식 중 사용할 인식기의 이름입니다. 예상되는 형식은 |
요청 본문
요청 본문에는 다음과 같은 구조의 데이터가 포함됩니다.
JSON 표현 |
---|
{ "config": { object ( |
필드 | |
---|---|
config |
자동 음성 인식에 사용할 특성 및 오디오 메타데이터입니다. 이 필드를 |
configMask |
이 인식 요청 중에 인식기의 정규화된 필드 이름의 쉼표로 구분된 목록입니다. 예: |
통합 필드 audio_source . 인라인 콘텐츠 또는 Google Cloud Storage URI인 오디오 소스입니다. audio_source 는 다음 중 하나여야 합니다. |
|
content |
base64 인코딩 문자열입니다. |
uri |
|
응답 본문
recognizers.recognize
메서드에 대한 응답 메시지입니다.
성공한 경우 응답 본문은 다음과 같은 구조의 데이터를 포함합니다.
JSON 표현 |
---|
{ "results": [ { object ( |
필드 | |
---|---|
results[] |
오디오의 순차적 부분에 해당하는 텍스트 변환 결과의 순차적 목록입니다. |
metadata |
인식에 관한 메타데이터입니다. |
승인 범위
다음 OAuth 범위가 필요합니다.
https://www.googleapis.com/auth/cloud-platform
자세한 내용은 인증 개요를 참조하세요.
IAM 권한
recognizer
리소스에 대해서는 다음 IAM 권한이 필요합니다.
speech.recognizers.recognize
자세한 내용은 IAM 문서를 참조하세요.
SpeechRecognitionResult
오디오의 일부분에 해당되는 음성 인식 결과입니다.
JSON 표현 |
---|
{
"alternatives": [
{
object ( |
필드 | |
---|---|
alternatives[] |
하나 이상의 인식 가설이 포함될 수 있습니다. 이러한 대안은 인식기에서 지정한 정확성 순위에 따라 정렬되며 최상위(첫 번째) 대안이 가장 가능성이 높습니다. |
channelTag |
다중 채널 오디오의 경우 해당 채널의 오디오를 인식한 결과에 해당하는 채널 번호입니다. |
resultEndOffset |
오디오 시작을 기준으로 이 결과가 끝나는 시점의 시간 오프셋입니다. 소수점 아래가 최대 9자리까지이고 ' |
languageCode |
출력 전용입니다. 이 결과에서 언어의 BCP-47 언어 태그입니다. 오디오에서 사용되었을 가능성이 가장 높은 것으로 감지된 언어 코드입니다. |
SpeechRecognitionAlternative
대체 가설로서 n-best 목록이라고도 합니다.
JSON 표현 |
---|
{
"transcript": string,
"confidence": number,
"words": [
{
object ( |
필드 | |
---|---|
transcript |
사용자가 말한 단어를 나타내는 스크립트 텍스트입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
words[] |
인식된 각 단어의 단어별 정보 목록입니다. |
WordInfo
인식된 단어의 단어별 정보입니다.
JSON 표현 |
---|
{ "startOffset": string, "endOffset": string, "word": string, "confidence": number, "speakerLabel": string } |
필드 | |
---|---|
startOffset |
오디오 시작을 기준으로 발화 시작 시점의 시간 오프셋입니다. 이 필드는 소수점 아래가 최대 9자리까지이고 ' |
endOffset |
오디오 시작을 기준으로 발화 끝 시점의 시간 오프셋입니다. 이 필드는 소수점 아래가 최대 9자리까지이고 ' |
word |
이 정보 세트에 해당하는 단어입니다. |
confidence |
신뢰도 추정치로서 0.0에서 1.0 사이입니다. 숫자가 클수록 인식된 단어가 정확할 가능성이 높아집니다. 이 필드는 비 스트리밍 결과의 최상위 대안 또는 |
speakerLabel |
오디오 내 모든 화자마다 고유한 라벨이 할당됩니다. 이 필드는 화자 중 이 단어를 말한 것으로 감지된 화자를 지정합니다. |
RecognitionResponseMetadata
인식 요청 및 응답에 대한 메타데이터입니다.
JSON 표현 |
---|
{ "totalBilledDuration": string } |
필드 | |
---|---|
totalBilledDuration |
가능한 경우 해당 요청에서 요금이 청구되는 오디오 초입니다. 소수점 아래가 최대 9자리까지이고 ' |