Speech-to-Text
최고의 Google AI 연구 및 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.
신규 고객에게는 Speech-to-Text에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다. 모든 고객에게 매월 60분의 무료 오디오 스크립트 작성 및 분석이 제공되며, 크레딧이 차감되지 않습니다.
-
정확한 자막으로 콘텐츠의 스크립트 작성
-
음성을 활용해 더욱 우수한 사용자 경험 설계
-
고객 상호작용에서 얻은 유용한 정보로 서비스 개선
-
콘솔 내 튜토리얼로 빠르게 시작하기
이점
최고의 정확성
Google의 최첨단 자동 음성 인식(ASR) 딥 러닝 신경망 알고리즘을 활용하세요.
손쉽게 모델 맞춤설정
Speech-to-Text UI로 커스텀 리소스를 실험하고 만들고 관리하세요.
유연한 모델 배포
클라우드에서는 API를 사용하고 온프레미스에서는 Speech-to-Text On-Prem을 사용하여 필요한 모든 곳에 ASR을 배포할 수 있습니다.
데모
Speech-to-Text 사용해 보기
이 데모에서와 같이 Speech-to-Text API를 사용하여 음성 스크립트 작성을 애플리케이션에 간편하게 도입할 수 있습니다.
주요 기능
주요 기능
음성 적응
힌트를 제공하여 많이 쓰이지 않는 분야별 단어 또는 어구의 스크립트 작성 정확도를 향상해 보세요. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.
분야별 모델
분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요.
손쉽게 품질 비교
사용하기 쉬운 사용자 인터페이스로 음성 오디오를 실험하세요. 다양한 구성을 사용해 보며 품질과 정확성을 최적화하세요.
Speech On-Device
인터넷 연결에 관계없이 모든 기기에서 Google Cloud의 음성 알고리즘을 로컬로 실행하세요. 사용자의 음성 데이터는 사용자 기기 외에 다른 곳으로 절대 전송되지 않습니다.
Speech-to-Text 기반 모델
수백만 시간의 오디오 데이터와 수십억 개의 텍스트 문장으로 학습된 음성용 Google Cloud 기반 모델인 Chirp로 구동되는 음성 모델을 사용하여 전 세계 잠재고객을 위한 음성 지원 애플리케이션을 빌드하세요.
문서
튜토리얼 및 시작하기 리소스
Speech-to-Text 기본사항
Speech-to-Text의 기본 개념을 알아봅니다.
빠른 시작: Speech-to-Text UI 사용
프로젝트 및 승인을 설정하고, 스크립트를 작성하여 다듬고, 콘솔에서 이러한 구성을 사용하는 방법을 알아봅니다.
빠른 시작: gcloud 도구 사용
명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 스크립트 작성 요청을 보냅니다.
권장사항
Speech-to-Text를 사용하여 오디오의 스크립트를 작성하기 위한 권장사항을 검토합니다.
ML 도입
Speech-to-Text 튜토리얼, Codelab 등을 살펴보세요.
지원 언어
Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.
Speech-to-Text On-Prem
Google 음성 인식 기술을 온프레미스 솔루션에 손쉽게 통합할 수 있게 해주는 Speech-to-Text On-Prem에 대해 자세히 알아보세요.
사용 사례
사용 사례
콜센터에 IVR(대화형 음성 응답)과 에이전트 대화를 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화와 고객에 대한 유용한 정보를 더 많이 확보할 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.
'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.
오디오 및 동영상의 스크립트를 작성하여 자막을 포함시키고 잠재고객 도달범위와 경험을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 스크립트 작성 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.
모든 기능
모든 기능
전 세계의 다양한 어휘 지원 | 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다. |
스트리밍 음성 인식 | API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다. |
음성 적응 | 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어의 스크립트를 작성하도록 음성 인식을 맞춤설정할 수 있으며 특정 단어 또는 어구의 스크립트 작성 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다. |
Speech-to-Text On-Prem | 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요. |
멀티 채널 인식 | Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다. |
잡음 환경에 강건한 음성 인식 기능 | Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경의 소음이 있는 오디오를 처리할 수 있습니다. |
분야별 모델 | 분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다. |
콘텐츠 필터링 | 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다. |
스크립트 작성 평가 | 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다. |
자동 구두점(베타) | Speech-to-Text는 스크립트 작성 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다. |
화자 분할(베타) | 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다. |
가격 책정
가격 책정
Speech-to-Text는 서비스에서 매달 성공적으로 처리한 오디오의 양(1초 단위로 측정됨)을 기준으로 가격을 책정합니다.