Speech-to-Text
Google AI 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.
-
정확한 캡션으로 콘텐츠 텍스트 변환
-
음성 명령을 통해 제품에 더 나은 사용자 환경 제공
-
고객 상호작용에서 유용한 정보를 도출하여 서비스 향상
이점
최고의 정확성
Google의 최첨단 자동 음성 인식(ASR) 딥 러닝 신경망 알고리즘을 적용합니다.
손쉽게 모델 맞춤설정
Speech-to-Text UI를 사용하면 커스텀 리소스를 실험, 생성, 관리할 수 있습니다.
유연한 배포
클라우드에서는 API를 사용하고 온프레미스에서는 Speech-to-Text On-Prem을 사용하여 필요한 모든 곳에 음성 인식을 배포할 수 있습니다.
데모
Speech-to-Text 활용
이 데모에서와 같이 Speech-to-Text API를 사용하여 음성 텍스트 변환을 애플리케이션에 간편하게 도입할 수 있습니다.
주요 특징
주요 특징
음성 적응
음성 인식 맞춤설정을 통해 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.
분야별 모델
분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환에 맞게 학습 모델 옵션을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.
손쉽게 품질 비교
사용하기 쉬운 사용자 인터페이스로 음성 오디오를 실험하세요. 다양한 구성을 사용해 보며 품질과 정확성을 최적화하세요.
Speech-to-Text On-Prem
인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요.
문서
문서
Speech-to-Text 기본사항
Speech-to-Text의 기본 개념을 알아봅니다.
빠른 시작: Speech-to-Text UI 사용
프로젝트 및 승인을 설정하고, 스크립트를 작성하여 다듬고, Console에서 이러한 구성을 사용하는 방법에 대하여 알아봅니다.
빠른 시작: gcloud 도구 사용
명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 텍스트 변환 요청을 보냅니다.
권장사항
Speech-to-Text를 사용하여 오디오를 텍스트로 변환하기 위한 권장사항을 검토합니다.
ML 도입
Speech-to-Text 튜토리얼, Codelab 등을 살펴보세요.
지원 언어
Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.
Speech-to-Text On-Prem
Google 음성 인식 기술을 온프레미스 솔루션에 손쉽게 통합할 수 있게 해주는 Speech-to-Text On-Prem에 대해 자세히 알아보세요.
사용 사례
사용 사례
콜센터에 IVR(대화형 음성 응답)과 에이전트 대화를 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화와 고객에 대한 유용한 정보를 더 많이 얻을 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.
'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.
오디오 및 동영상의 텍스트 변환을 통해 자막을 포함시켜서 잠재고객 도달범위와 환경을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 텍스트 변환 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.
모든 특징
모든 특징
전 세계의 다양한 어휘 지원 | 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다. |
스트리밍 음성 인식 | API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다. |
음성 적응 | 음성 인식 맞춤설정을 통해 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다. |
Speech-to-Text On-Prem | 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요. |
멀티 채널 인식 | Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다. |
강력한 소음 인식 기능 | Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리할 수 있습니다. |
분야별 모델 | 분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환에 맞게 학습 모델 옵션을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다. |
콘텐츠 필터링 | 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다. |
스크립트 작성 평가 | 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다. |
자동 구두점(베타) | Speech-to-Text는 텍스트 변환 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다. |
화자 분할(베타) | 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다. |
가격 책정
가격 책정
Speech-to-Text의 가격은 무료 등급 60분이 소진된 이후 오디오 15초 단위로 책정됩니다.