Cloud Speech API

머신러닝으로 제공하는 음성 텍스트 변환

무료로 사용해 보기

강력한 음성 인식

사용하기 간편한 API로 강력한 신경망 모델을 적용한 Google Cloud Speech API를 사용하면 개발자가 오디오를 텍스트로 변환할 수 있습니다. 이 API는 글로벌 사용자층에 대응하여 110가지 이상의 언어와 방언을 인식합니다. 애플리케이션의 마이크로 입력되는 사용자의 음성을 텍스트로 변환하거나, 음성을 통해 명령어로 관리하는 기능을 사용 설정하거나, 오디오 파일을 텍스트로 변환하는 등 다양하게 활용할 수 있습니다. Google에서 Google 제품에 사용하는 것과 동일한 기술을 활용해 요청으로 업로드된 오디오를 인식하고 Google Cloud Storage의 오디오 저장소와 통합해 보세요.

speech-api-lead

머신러닝 활용

최고급 딥 러닝 신경망 알고리즘을 사용자의 오디오에 적용하여 독보적인 정확도로 음성을 인식할 수 있습니다. Google에서 Google 제품에 사용하는 내부 음성 인식 기술을 개선함에 따라 Speech API의 정확도도 시간이 지날수록 향상됩니다.

110개가 넘는 언어 지원

Speech API는 글로벌 사용자층에 대응하여 110가지 이상의 언어와 방언을 인식합니다. 또한 텍스트 결과에서 부적절한 콘텐츠를 필터링할 수 있습니다.

실시간 텍스트 결과 반환

Speech API는 텍스트 결과를 스트리밍할 수 있으며, 부분적인 인식 결과를 반환해 말하는 도중에 인식된 텍스트가 바로 표시됩니다. 또는 Speech API가 파일에 저장된 오디오에서 인식된 텍스트를 반환할 수 있습니다.

소음이 심한 환경에서도 정확

Speech API에 오디오를 전송하기 전에 고급 신호 처리나 주변 소음 제거를 진행할 필요가 없습니다. 이 서비스는 다양한 환경에서 소음이 있는 오디오를 처리합니다.

문맥에 따른 인식

API 호출마다 별도의 단어 힌트 모음을 제공하여 문맥에 맞게 음성 인식을 조정할 수 있습니다. 특히 기기 또는 앱을 제어하는 사용 사례에 유용합니다.

모든 기기의 앱에서 작동

Speech API는 스마트폰, PC, 태블릿, IoT 기기(예: 자동차, TV, 스피커) 등 REST 또는 gRPC 요청을 전송할 수 있는 모든 기기를 지원합니다.

Speech API 기능

머신러닝으로 제공하는 음성 텍스트 변환

자동 음성 인식
딥 러닝 신경망으로 제공하는 자동 음성 인식(ASR)을 음성 검색이나 음성 텍스트 변환과 같은 애플리케이션에 활용할 수 있습니다.
전 세계 다양한 어휘 지원
방대한 분량의 어휘를 바탕으로 110가지 이상의 언어와 방언을 인식합니다.
인식 결과 스트리밍
사용자가 계속 말하는 중에 인식 결과를 반환합니다.
단어 힌트
사용자가 말할 가능성이 높은 단어와 구문 모음을 제공하여 특정 문맥에 맞게 음성 인식을 맞춤설정할 수 있습니다. 특히 어휘 사전에 맞춤 단어와 이름을 추가하는 경우나 음성으로 제어하는 사용 사례에 유용합니다.
실시간 또는 사전 녹음 오디오 지원
오디오 입력은 애플리케이션의 마이크로 캡처하거나 사전 녹음된 오디오 파일에서 전송할 수 있습니다. FLAC, AMR, PCMU, Linear-16을 비롯한 여러 오디오 인코딩이 지원됩니다.
강력한 소음 차단 기능
추가적인 주변 소음 제거를 할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리합니다.
부적절한 콘텐츠 필터링
일부 언어의 경우 텍스트 결과에서 부적절한 콘텐츠를 필터링할 수 있습니다.
통합된 API
오디오 파일은 요청으로 업로드하거나 Google Cloud Storage에 통합할 수 있습니다.

Cloud Speech API 가격

강력한 음성 인식

무료 등급의 60분이 소진된 후에 Cloud Speech API로 처리되는 오디오 파일은 15초 단위로 가격이 책정됩니다. 자세한 내용은 가격 책정 가이드를 참조하세요.

월별 사용량 15초당 가격*
0~60분 무료
61~1,000,000분** $0.006
USD 외의 통화로 지불하는 경우 Cloud Platform SKU에 해당 통화로 표기된 가격이 적용됩니다.

* 이 가격은 개인용 시스템(예: 스마트폰, 태블릿, 노트북, 데스크톱)의 애플리케이션용입니다. 내장형 기기(예: 자동차, TV, 가전제품, 스피커)에서 Speech API를 사용하기 위해 승인을 받고 가격 책정을 확인하려면 Google에 문의하시기 바랍니다.

** 월별 사용량은 월 100만 분으로 제한됩니다.