Speech-to-Text
최고의 Google AI 연구 및 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.
신규 고객에게는 Speech-to-Text에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다. 모든 고객에게 매월 60분의 무료 오디오 스크립트 작성 및 분석이 제공되며, 크레딧이 차감되지 않습니다.
이점
최고의 정확성
Google의 최첨단 자동 음성 인식(ASR) 딥 러닝 신경망 알고리즘을 활용하세요.
손쉽게 모델 맞춤설정
Speech-to-Text UI로 커스텀 리소스를 실험하고 만들고 관리하세요.
유연한 모델 배포
클라우드에서는 API를 사용하고 온프레미스에서는 Speech-to-Text On-Prem을 사용하여 필요한 모든 곳에 ASR을 배포할 수 있습니다.
데모
Speech-to-Text 활용
이 데모에서와 같이 Speech-to-Text API를 사용하여 음성 스크립트 작성을 애플리케이션에 간편하게 도입할 수 있습니다.
문서
튜토리얼 및 시작하기 리소스
Speech-to-Text 기본사항
Speech-to-Text의 기본 개념을 알아봅니다.
빠른 시작: Speech-to-Text UI 사용
프로젝트 및 승인을 설정하고, 스크립트를 작성하여 다듬고, 콘솔에서 이러한 구성을 사용하는 방법에 대하여 알아봅니다.
빠른 시작: gcloud 도구 사용
명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 스크립트 작성 요청을 보냅니다.
권장사항
Speech-to-Text를 사용하여 오디오의 스크립트를 작성하기 위한 권장사항을 검토합니다.
ML 도입
Speech-to-Text 튜토리얼, Codelab 등을 살펴보세요.
지원 언어
Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.
Speech-to-Text On-Prem
Google 음성 인식 기술을 온프레미스 솔루션에 손쉽게 통합할 수 있게 해주는 Speech-to-Text On-Prem에 대해 자세히 알아보세요.
사용 사례
사용 사례
콜센터에 IVR(대화형 음성 응답)과 에이전트 대화를 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화와 고객에 대한 유용한 정보를 더 많이 확보할 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.
'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.
오디오 및 동영상의 스크립트를 작성하여 자막을 포함시키고 잠재고객 도달범위와 경험을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 스크립트 작성 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.
모든 특징
모든 특징
전 세계의 다양한 어휘 지원 | 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다. |
스트리밍 음성 인식 | API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다. |
음성 적응 | 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어의 스크립트를 작성하도록 음성 인식을 맞춤설정할 수 있으며 특정 단어 또는 어구의 스크립트 작성 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다. |
Speech-to-Text On-Prem | 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요. |
멀티 채널 인식 | Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다. |
강력한 소음 인식 기능 | Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경의 소음이 있는 오디오를 처리할 수 있습니다. |
분야별 모델 | 분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 스크립트 작성에 맞게 학습된 모델 옵션을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다. |
콘텐츠 필터링 | 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다. |
스크립트 작성 평가 | 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다. |
자동 구두점(베타) | Speech-to-Text는 스크립트 작성 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다. |
화자 분할(베타) | 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다. |
가격 책정
가격 책정
Speech-to-Text의 가격은 무료 등급 60분이 소진된 이후 오디오 15초 단위로 책정됩니다.