이 페이지에서는 Speech-to-Text에 대한 오디오 스크립트 작성 요청에 특정 머신러닝 모델을 사용하는 방법을 설명합니다.
텍스트 변환 모델
Speech-to-Text는 입력을 여러 머신러닝 모델 중 하나와 비교하는 방법으로 오디오 클립의 단어를 감지합니다. 각 모델은 수백만 개의 예(이 경우 사람의 음성을 녹음한 수많은 오디오 자료)를 분석하는 학습 과정을 거쳤습니다.
Speech-to-Text에는 전화 통화나 동영상 같은 특정 소스의 오디오로 학습된 특화 모델이 있습니다. 이러한 학습 과정을 거친 특화 모델을 유사한 종류의 오디오 데이터에 적용하면 더 좋은 결과를 얻을 수 있습니다.
예를 들어 Speech-to-Text에는 전화로 녹음된 음성을 인식하도록 학습된 스크립트 작성 모델이 있습니다. Speech-to-Text가 telephony
또는 telephony_short
모델을 사용하여 전화 오디오를 텍스트로 변환하면 latest_short
또는 latest_long
모델을 사용하여 전화 오디오를 스크립트로 작성하는 것보다 정확하게 스크립트가 작성됩니다.
다음 표에서는 Speech-to-Text와 함께 사용할 수 있는 텍스트 변환 모델을 보여줍니다.
모델 이름 | 설명 |
---|---|
latest_long |
미디어 또는 자발적 음성과 대화 같은 모든 종류의 긴 콘텐츠에 이 모델을 사용합니다. 특히 동영상 모델을 도착어로 사용할 수 없는 경우 동영상 모델 대신 이 모델을 사용하세요. 기본 모델 대신 이 모델을 사용할 수도 있습니다. |
latest_short |
몇 초 길이의 짧은 발화에 이 모델을 사용합니다. 명령어나 다른 단일 장면 방향 음성 사용 사례를 캡처하려는 경우에 유용합니다. 명령어 및 검색 모델 대신 이 모델을 사용하는 것이 좋습니다. |
telephony |
'phone_call' 모델의 개선 버전으로서 전화 통화 오디오에 가장 적합합니다. 대개 8kHz의 샘플링 레이트로 녹음된 통화를 사용합니다. |
telephony_short |
전화 통화 오디오의 짧거나 한 단어로 이루어진 발화에 대한 최신 '전화' 모델의 전용 버전으로, 일반적으로 8kHz 샘플링 레이트로 녹음됩니다. |
medical_dictation |
의료 전문가가 지정한 메모를 텍스트로 변환하려면 이 모델을 사용합니다.
표준 요금보다 비싼 프리미엄 모델입니다. 자세한 내용은 가격 책정 페이지를 참조하세요. |
medical_conversation |
이 모델을 사용하여 의료 전문가와 환자 간의 대화를 텍스트로 변환합니다.
표준 요금보다 비싼 프리미엄 모델입니다. 자세한 내용은 가격 책정 페이지를 참조하세요. |
다음 모델은 Conformer 외의 기본 아키텍처를 기반으로 하며 기존 및 이전 버전과의 호환성을 위해 주로 유지됩니다. | |
command_and_search |
짧거나 한 단어로 이루어진 음성 명령, 음성 검색 등의 발화에 적합합니다. |
default |
긴 오디오, 구술 등 다른 오디오 모델에 맞지 않는 오디오에 적합합니다. 기본 모델은 별도의 모델이 맞춤 설정된 동영상 클립 등 오디오를 포함한 모든 유형의 오디오에 대한 스크립트 작성 결과를 생성합니다. 그러나 기본 모델을 사용하여 동영상 클립 오디오를 인식하면 동영상 모델을 사용하는 경우보다 스크립트 작성 결과 품질이 낮을 수 있습니다. Hi-Fi이고 16kHz 이상의 샘플링 레이트로 녹음된 오디오가 좋습니다. |
phone_call |
전화 통화 오디오에 가장 적합합니다. 대개 8kHz의 샘플링 레이트로 녹음된 통화를 사용합니다. |
video |
여러 명의 화자가 있는 동영상 클립 또는 기타 소스(예: 팟캐스트)의 오디오에 가장 적합합니다. 이 모델은 고품질 마이크를 사용하여 녹음되거나 배경 소음이 많은 오디오에 가장 적합합니다. 최상의 결과를 얻기 위해 16,000Hz 이상의 샘플링 레이트로 녹음된 오디오를 제공합니다. |
오디오 스크립트 작성용 모델 선택
오디오 스크립트 작성에 사용할 특정 모델을 지정하려면 요청을 위한 RecognitionConfig
파라미터에서 model
필드를 허용된 값(예: latest_long
, latest_short
, telephony
, telephony_short
) 중 하나로 설정해야 합니다.
Speech-to-Text는 speech:recognize
, speech:longrunningrecognize
, 스트리밍 등의 모든 인식 방법에서 모델 선택을 지원합니다.
로컬 오디오 파일의 텍스트 변환 수행
프로토콜
자세한 내용은 speech:recognize
API 엔드포인트를 참조하세요.
동기 음성 인식을 수행하려면 POST
요청을 하고 적절한 요청 본문을 제공합니다. 다음은 curl
을 사용한 POST
요청의 예시입니다. 이 예시에서는 Google Cloud CLI를 사용하여 액세스 토큰을 생성합니다. gcloud CLI 설치에 대한 안내는 빠른 시작을 참조하세요.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "sampleRateHertz": 16000, "languageCode": "en-US", "model": "video" }, "audio": { "uri": "gs://cloud-samples-tests/speech/Google_Gnome.wav" } }'
요청 본문 구성에 대한 자세한 내용은 RecognitionConfig
참조 문서를 확인하세요.
요청이 성공하면 서버가 200 OK
HTTP 상태 코드와 응답을 JSON 형식으로 반환합니다.
{ "results": [ { "alternatives": [ { "transcript": "OK Google stream stranger things from Netflix to my TV okay stranger things from Netflix playing on TV from the people that brought you Google home comes the next evolution of the smart home and it's just outside your window me Google know hi how can I help okay no what's the weather like outside the weather outside is sunny and 76 degrees he's right okay no turn on the hose I'm holding sure okay no I'm can I eat this lemon tree leaf yes what about this Daisy yes but I wouldn't recommend it but I could eat it okay Nomad milk to my shopping list I'm sorry that sounds like an indoor request I keep doing that sorry you do keep doing that okay no is this compost really we're all compost if you think about it pretty much everything is made up of organic matter and will return", "confidence": 0.9251011 } ] } ] }
Go
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Go API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Java
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Java API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Node.js API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Python
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Python API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
추가 언어
C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 다음 .NET용 Speech-to-Text 참고 문서를 참조하세요.
PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 다음 PHP용 Speech-to-Text 참고 문서를 참조하세요.
Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Speech-to-Text 참고 문서를 참조하세요.
Cloud Storage 오디오 파일의 텍스트 변환 수행
Go
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Go API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Java
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Java API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
Node.js
Speech-to-Text용 클라이언트 라이브러리를 설치하고 사용하는 방법은 Speech-to-Text 클라이언트 라이브러리를 참조하세요. 자세한 내용은 Speech-to-Text Node.js API 참조 문서를 확인하세요.
Speech-to-Text에 인증하려면 애플리케이션 기본 사용자 인증 정보를 설정합니다. 자세한 내용은 로컬 개발 환경의 인증 설정을 참조하세요.
추가 언어
C#: 클라이언트 라이브러리 페이지의 C# 설정 안내를 따른 다음 .NET용 Speech-to-Text 참고 문서를 참조하세요.
PHP: 클라이언트 라이브러리 페이지의 PHP 설정 안내를 따른 다음 PHP용 Speech-to-Text 참고 문서를 참조하세요.
Ruby: 클라이언트 라이브러리 페이지의 Ruby 설정 안내를 따른 다음 Ruby용 Speech-to-Text 참고 문서를 참조하세요.