Cloud Speech-to-Text

짧거나 긴 오디오에 사용할 수 있는 머신러닝 기반 음성 텍스트 변환 기술입니다.

무료로 사용해 보기

강력한 음성 인식

사용하기 간편한 API로 강력한 신경망 모델을 적용한 Google Cloud Speech-to-Text를 사용하면 개발자가 오디오를 텍스트로 변환할 수 있습니다. 이 API는 글로벌 사용자층에 대응하여 120개 이상의 언어와 방언을 인식합니다. 음성 명령 및 제어 기능을 구현하고 콜센터의 오디오를 텍스트로 변환하는 등의 작업을 할 수 있고 Google의 머신러닝 기술을 사용하여 실시간 스트리밍 또는 사전 녹음 오디오를 처리할 수 있습니다.

speech-api-lead

지금 내 음성을 텍스트로 변환해 보기

언어를 선택하고 '지금 시작'을 클릭하여 녹음을 시작해 보세요.

머신러닝 활용

최첨단 딥 러닝 신경망 알고리즘을 오디오에 적용하여 독보적인 정확도로 음성을 인식할 수 있습니다. Google에서 Google 제품에 사용하는 내부 음성 인식 기술을 개선함에 따라 Cloud Speech-to-Text의 정확도도 시간이 지날수록 향상됩니다.

120개 이상의 언어 및 방언 인식

Cloud Speech-to-Text는 120개의 언어와 방언을 인식하므로 글로벌 사용자층을 지원할 수 있습니다. 또한 모든 언어의 텍스트 결과에서 부적절한 콘텐츠를 필터링할 수 있습니다.

음성 언어를 자동으로 식별

Cloud Speech-to-Text를 사용하면 특정 발언에서 어떤 언어가 사용되었는지 확인할 수 있습니다(4개국어로 제한). 이 기능은 음성 검색(예: '파리의 기온은?')과 명령어(예: '볼륨 높이기')에 사용할 수 있습니다.

실시간으로 짧거나 긴 오디오의 텍스트 변환 반환

스트리밍 오디오를 인식하거나 사용자가 말하고 있을 때 Cloud Speech-to-Text가 즉시 텍스트를 반환하여 텍스트 결과를 스트리밍할 수 있습니다. 또는 Cloud Speech-to-Text가 파일로 저장된 오디오에서 인식된 텍스트를 반환할 수 있습니다. 짧은 오디오와 긴 오디오의 분석이 모두 가능합니다.

자동으로 고유 명사 및 문맥에 맞는 형식을 텍스트로 변환

Cloud Speech-to-Text는 일상 대화를 잘 인식하도록 제작되었으며, 고유 명사(예: 순다르 피차이)를 정확하게 텍스트로 변환하고 언어의 형식(예: 날짜, 전화번호)을 적절하게 지정할 수 있습니다. Google은 Oxford 영어 사전의 전체 단어 수 대비 10배 이상의 고유 명사를 지원합니다.

사용 사례에 맞는 사전 제작된 모델 모음 제공

Cloud Speech-to-Text는 사전 제작된 여러 음성 인식 모델과 함께 제공되므로 사용 사례(예: 음성 명령)에 맞게 최적화할 수 있습니다. 예를 들어 사전 제작된 동영상 텍스트 변환 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며 YouTube 자막 제작과 비슷한 머신러닝 기술을 사용합니다.

모델 설명
command_and_search 음성 명령이나 음성 검색과 같은 짧은 쿼리에 가장 적합합니다.
phone_call 전화 통화에서 나온 오디오에 가장 적합합니다. 대개 8kHz의 샘플링 레이트로 녹음된 통화를 사용합니다.
video 동영상에서 나온 오디오나 여러 화자가 있는 오디오에 가장 적합합니다. 16kHz 이상의 샘플링 레이트로 녹음된 오디오가 좋습니다. 표준 요금보다 비싼 프리미엄 모델입니다.
default 특정 오디오 모델이 아닌 오디오에 가장 적합합니다. 예를 들어 긴 오디오가 여기에 포함됩니다. Hi-Fi이고 16kHz 이상의 샘플링 레이트로 녹음된 오디오가 좋습니다.

Cloud Speech-to-Text 특징

머신러닝을 기반으로 음성을 텍스트로 변환할 수 있습니다.

자동 음성 인식
딥 러닝 신경망을 기반으로 한 자동 음성 인식(ASR)을 음성 검색이나 음성 텍스트 변환과 같은 애플리케이션에 활용할 수 있습니다.
전 세계 다양한 어휘 지원
방대한 분량의 어휘를 바탕으로 120개 이상의 언어와 방언을 인식합니다.
구문 힌트
사용자가 말할 가능성이 높은 단어와 구문 모음을 제공하여 특정 문맥에 맞게 음성 인식을 맞춤설정할 수 있습니다. 특히 어휘 사전에 커스텀 단어와 이름을 추가하는 경우나 음성으로 제어하는 사용 사례에 유용합니다.
실시간 스트리밍 또는 사전 녹음 오디오 지원
오디오 입력은 애플리케이션의 마이크에서 스트리밍하거나 인라인 또는 Google Cloud Storage를 통해 사전 녹음된 오디오 파일에서 전송할 수 있습니다. FLAC, AMR, PCMU, Linear-16을 비롯한 여러 오디오 인코딩이 지원됩니다.
언어 자동 감지베타
다국어를 지원해야 하는 경우 이제 2~4개의 언어 코드를 지정하면 Cloud Speech-to-Text가 올바른 음성 언어를 식별하고 텍스트로 변환합니다.
강력한 소음 인식 기능
별도로 주변 소음을 제거할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리합니다.
부적절한 콘텐츠 필터링
일부 언어의 경우 텍스트 결과에서 부적절한 콘텐츠를 필터링할 수 있습니다.
자동 구두점베타
머신러닝으로 텍스트 변환의 구두점(쉼표, 물음표, 마침표 등)을 정확하게 추가합니다.
모델 선택베타
사전 제작된 네 가지 모델 모음(기본값, 음성 명령 및 검색, 전화 통화, 동영상 텍스트 변환) 중에서 선택할 수 있습니다.
화자 분할베타
누가 무엇을 말했는지 알 수 있습니다. 이제 대화에서 각 발언의 주체가 누구인지 자동으로 예측할 수 있습니다.
멀티채널 인식베타
각 참가자의 음성이 별도의 채널을 통해 녹음된 다중 참가자 녹음(예: 2채널 전화 통화 또는 4채널 화상회의)의 경우 Cloud Speech-To-Text는 각 채널을 개별적으로 인식한 다음 텍스트 변환에 주석을 달아 실제 순서와 동일하게 만듭니다.

Cloud Speech-to-Text API 가격

강력한 음성 인식

무료 등급 60분이 소진된 후부터 Cloud Speech-to-Text로 처리되는 오디오에 15초 단위로 가격이 책정됩니다. 자세한 내용은 가격 책정 가이드를 참조하세요.

기능 0~60분 60분 초과(최대 1백만 분)
음성 인식(동영상을 제외한 모든 모델) 무료 $0.006(USD)/15초*
동영상 음성 인식 $0.006 $0.012(USD)/15초*

이 가격은 개인용 시스템(예: 스마트폰, 태블릿, 노트북, 데스크톱)의 애플리케이션용입니다. 내장형 기기(예: 자동차, TV, 가전제품, 스피커)에서 Speech-to-Text API를 사용하려는 경우 Google에 문의하여 승인을 받고 가격을 확인하시기 바랍니다.

* 각 요청은 15초 단위로 올림됩니다. 예를 들어 각각 7초 분량의 오디오를 포함하는 요청이 3회 이루어진 경우 오디오 45초(3x15초)에 해당하는 $0.018(USD)가 청구됩니다. 15초 단위로 올림할 때 소수점 이하 초수도 포함됩니다. 즉, 15.14초는 30초로 올림되어 청구됩니다.

이 페이지에 나열된 제품이나 기능은 베타 버전입니다. 제품 출시 단계에 대한 자세한 내용은 여기에서 확인하세요.

다음에 대한 의견 보내기...

Cloud Speech-to-Text API