이 페이지는 동기 음성 인식을 사용하여 짧은 오디오 파일을 텍스트로 변환하는 방법을 설명합니다.
동기 음성 인식은 처리되는 즉시 응답에서 짧은 오디오(1분 미만)의 인식된 텍스트를 반환합니다. 긴 오디오에 대한 음성 인식 요청을 처리하려면 비동기 음성 인식을 사용합니다.
오디오 콘텐츠를 Speech-to-Text에 직접 보내거나 Google Cloud Storage에 있는 기존 오디오 콘텐츠를 처리할 수 있습니다. 동기 음성 인식 요청에 대해서는 오디오 제한도 참조하세요.
로컬 파일에서 동기 음성 인식 수행
다음은 로컬 오디오 파일에서 동기 음성 인식을 수행하는 예입니다.
프로토콜
자세한 내용은 speech:recognize
API 엔드포인트를 참조하세요.
동기 음성 인식을 수행하려면 POST
요청을 하고 적절한 요청 본문을 제공합니다. 다음은 curl
을 사용한 POST
요청의 예시입니다. 이 예시에서는 Google Cloud Cloud SDK를 사용하는 프로젝트용으로 설정된 서비스 계정의 액세스 토큰을 사용합니다. Cloud SDK 설치, 서비스 계정으로 프로젝트 설정, 액세스 토큰 획득 방법은 빠른 시작을 참조하세요.
curl -X POST \ -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US', 'enableWordTimeOffsets': false }, 'audio': { 'content': '/9j/7QBEUGhvdG9zaG9...base64-encoded-audio-content...fXNWzvDEeYxxxzj/Coa6Bax//Z' } }" "https://speech.googleapis.com/v1/speech:recognize"
요청 본문 구성에 대한 자세한 내용은 RecognitionConfig 참조 문서를 참조하세요.
요청 본문에서 제공된 오디오 콘텐츠는 base64로 인코딩됩니다.
오디오를 base64로 인코딩하는 방법에 대한 자세한 내용은 오디오 콘텐츠를 Base64 로 인코딩을 참조하세요. content
필드에 대한 자세한 내용은 RecognitionAudio를 참조하세요.
요청이 성공하면 서버가 200 OK
HTTP 상태 코드와 응답을 JSON 형식으로 반환합니다.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
자세한 내용은 recognize
명령어를 참조하세요.
로컬 파일에서 음성 인식을 수행하려면 gcloud
명령줄 도구를 사용하여 음성 인식을 수행할 파일의 로컬 파일 경로를 전달합니다.
gcloud ml speech recognize PATH-TO-LOCAL-FILE --language-code='en-US'
요청이 성공하면 서버는 JSON 형식의 응답을 반환합니다.
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
자바
Node.js
PHP
Python
Ruby
원격 파일에서 동기 음성 인식 수행
요청 본문의 오디오 파일 콘텐츠를 보낼 필요없이 간편하게 Speech-to-Text API를 사용하여 Google Cloud Storage에 있는 오디오 파일에서 직접 동기 음성 인식을 수행할 수 있습니다.
다음은 Cloud Storage에 있는 파일에서 동기 음성 인식을 수행하는 예입니다.
프로토콜
자세한 내용은 speech:recognize
API 엔드포인트를 참조하세요.
동기 음성 인식을 수행하려면 POST
요청을 하고 적절한 요청 본문을 제공합니다. 다음은 curl
을 사용한 POST
요청의 예시입니다. 이 예시에서는 Google Cloud Cloud SDK를 사용하는 프로젝트용으로 설정된 서비스 계정의 액세스 토큰을 사용합니다. Cloud SDK 설치, 서비스 계정으로 프로젝트 설정, 액세스 토큰 획득 방법은 빠른 시작을 참조하세요.
curl -X POST -H "Authorization: Bearer "$(gcloud auth application-default print-access-token) \ -H "Content-Type: application/json; charset=utf-8" \ --data "{ 'config': { 'encoding': 'LINEAR16', 'sampleRateHertz': 16000, 'languageCode': 'en-US' }, 'audio': { 'uri': 'gs://YOUR_BUCKET_NAME/YOUR_FILE_NAME' } }" "https://speech.googleapis.com/v1/speech:recognize"
요청 본문 구성에 대한 자세한 내용은 RecognitionConfig 참조 문서를 참조하세요.
요청이 성공하면 서버가 200 OK
HTTP 상태 코드와 응답을 JSON 형식으로 반환합니다.
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
gcloud
자세한 내용은 recognize
명령어를 참조하세요.
로컬 파일에서 음성 인식을 수행하려면 gcloud
명령줄 도구를 사용하여 음성 인식을 수행할 파일의 로컬 파일 경로를 전달합니다.
gcloud ml speech recognize 'gs://cloud-samples-tests/speech/brooklyn.flac' \ --language-code='en-US'
요청이 성공하면 서버는 JSON 형식의 응답을 반환합니다.
{ "results": [ { "alternatives": [ { "confidence": 0.9840146, "transcript": "how old is the Brooklyn Bridge" } ] } ] }
C#
Go
자바
Node.js
PHP
Ruby