이 페이지는 동기 음성 인식을 사용하여 짧은 오디오 파일을 텍스트로 변환하는 방법을 설명합니다.
동기 음성 인식은 짧은 오디오(60초 미만)에서 인식된 텍스트를 반환합니다.
로컬 파일의 오디오 콘텐츠를 Speech-to-Text로 직접 보내거나 Speech-to-Text가 Google Cloud Storage 버킷에 저장된 오디오 콘텐츠를 처리할 수 있습니다. 동기 음성 인식 요청의 한도는 할당량 및 한도 페이지를 참조하세요.
인식기와 인식 요청 보내기에 대한 자세한 내용은 참조 문서를 확인하세요.
로컬 파일에서 동기 음성 인식 수행
다음은 로컬 오디오 파일에서 동기 음성 인식을 수행하는 예시입니다.
Python
원격 파일에서 동기 음성 인식 수행
요청 본문의 오디오 파일 콘텐츠를 보낼 필요없이 간편하게 Speech-to-Text API를 사용하여 Google Cloud Storage에 있는 오디오 파일에서 직접 동기 음성 인식을 수행할 수 있습니다.
Speech-to-Text가 Google Cloud Storage의 파일에 액세스하려면 Speech-to-Text에 대한 서비스 계정을 만들고 해당 계정에 관련 스토리지 객체에 대한 읽기 액세스 권한을 부여해야 합니다. 서비스 계정을 만들려면 Cloud Shell에서 다음 명령어를 실행하여 계정이 없으면 계정을 만들고 표시합니다.
gcloud beta services identity create --service=speech.googleapis.com \ --project=PROJECT_ID
gcloud 베타 명령어 구성요소를 설치하라는 메시지가 표시되면 Y
를 입력합니다. 설치가 완료되면 명령어가 자동으로 다시 시작됩니다.
서비스 계정 ID의 형식은 이메일 주소와 비슷합니다.
Service identity created: service-xxx@gcp-sa-speech.iam.gserviceaccount.com
이 계정에 인식을 실행할 관련 스토리지 객체에 대한 읽기 액세스 권한을 부여합니다.
Google Cloud Storage의 액세스 관리에 대한 자세한 내용은 Google Cloud Storage 문서의 액세스 제어 목록 생성 및 관리를 참조하세요.
다음은 Cloud Storage에 있는 파일에서 동기 음성 인식을 수행하는 예시입니다.
Python