이 페이지에서는 Speech-to-Text로 텍스트 변환 요청을 보낼 때 고급 음성 인식 모델을 요청하는 방법을 설명합니다.
현재 사용 가능한 두 가지 고급 모델은 전화 통화 모델과 동영상 모델입니다. 이러한 모델은 이러한 특정 소스로부터 오디오 데이터를 정확하게 텍스트 변환하도록 최적화되어 있습니다. 고급 모델이 사용 중인 언어로 제공되는지 알아보려면 지원 언어 페이지를 참조하세요.
Google은 데이터 로깅을 통해 수집된 데이터를 기반으로 고급 모델을 만들고 개선합니다. 고급 모델을 사용하기 위해 데이터 로깅을 선택해야 할 필요는 없지만 선택하면 Google이 이러한 모델을 개선하는 데 도움이 되고 사용 요금에 대한 할인 혜택도 받을 수 있습니다.
고급 인식 모델을 사용하려면 RecognitionConfig에 다음 필드를 설정합니다.
useEnhanced를true로 설정합니다.model필드에서phone_call또는video문자열을 전달합니다.
Speech-to-Text는 speech:recognize, speech:longrunningrecognize, 스트리밍 등의 모든 음성 인식 방법에서 고급 모델을 지원합니다.
다음 코드 샘플은 텍스트 변환 요청에 고급 모델을 사용하도록 요청하는 방법을 보여줍니다.
프로토콜
자세한 내용은 speech:recognize API 엔드포인트를 참조하세요.
동기 음성 인식을 수행하려면 POST 요청을 하고 적절한 요청 본문을 제공합니다. 다음은 curl을 사용한 POST 요청의 예시입니다. 이 예시에서는 Google Cloud CLI를 사용하여 액세스 토큰을 생성합니다. gcloud CLI 설치에 대한 안내는 빠른 시작을 참조하세요.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
요청 본문 구성에 대한 자세한 내용은 RecognitionConfig 참고 문서를 확인하세요.
요청이 성공하면 서버가 200 OK HTTP 상태 코드와 응답을 JSON 형식으로 반환합니다.
{
"results": [
{
"alternatives": [
{
"transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.",
"confidence": 0.8930228
}
],
"resultEndTime": "5.640s"
},
{
"alternatives": [
{
"transcript": " Certainly, which color would you like? We are blue black and red.",
"confidence": 0.9101991
}
],
"resultEndTime": "10.220s"
},
{
"alternatives": [
{
"transcript": " Let's go with the black one.",
"confidence": 0.8818244
}
],
"resultEndTime": "13.870s"
},
{
"alternatives": [
{
"transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?",
"confidence": 0.94733626
}
],
"resultEndTime": "18.460s"
},
{
"alternatives": [
{
"transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?",
"confidence": 0.9519095
}
],
"resultEndTime": "25.930s"
},
{
"alternatives": [
{
"transcript": " Express, please.",
"confidence": 0.9101229
}
],
"resultEndTime": "28.260s"
},
{
"alternatives": [
{
"transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.",
"confidence": 0.9321616
}
],
"resultEndTime": "34.150s"
}
]
}
Go
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Go API 참고 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Python
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Python API 참고 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Java
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Java API 참고 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Node.js API 참고 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
추가 언어
C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 다음 .NET용 Speech-to-Text 참고 문서를 확인하세요.
PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 다음 PHP용 Speech-to-Text 참고 문서를 확인하세요.
Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Speech-to-Text 참고 문서를 참조하세요.
다음 단계
동기식 텍스트 변환 요청 방법 살펴보기