Google Cloud Next에서 발표된 최신 소식을 확인해 보세요. 지금 보기
바로 이동

Speech-to-Text

최고의 Google AI 연구 및 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.

신규 고객에게는 Speech-to-Text에 사용할 수 있는 $300의 무료 크레딧이 제공됩니다. 모든 고객에게 매월 60분의 무료 오디오 스크립트 작성 및 분석이 제공되며, 크레딧이 차감되지 않습니다.

  • 정확한 자막으로 콘텐츠의 스크립트 작성

  • 음성을 활용해 더욱 우수한 사용자 경험 설계

  • 고객 상호작용에서 얻은 유용한 정보로 서비스 개선

  • 콘솔 내 튜토리얼로 빠르게 시작하기

이점

최고의 정확성

Google의 최첨단 자동 음성 인식(ASR) 딥 러닝 신경망 알고리즘을 활용하세요.

손쉽게 모델 맞춤설정

Speech-to-Text UI로 커스텀 리소스를 실험하고 만들고 관리하세요.

유연한 모델 배포

클라우드에서는 API를 사용하고 온프레미스에서는 Speech-to-Text On-Prem을 사용하여 필요한 모든 곳에 ASR을 배포할 수 있습니다.

데모

Speech-to-Text 사용해 보기

이 데모에서와 같이 Speech-to-Text API를 사용하여 음성 스크립트 작성을 애플리케이션에 간편하게 도입할 수 있습니다.

주요 기능

주요 기능

음성 적응

힌트를 제공하여 많이 쓰이지 않는 분야별 단어 또는 어구의 스크립트 작성 정확도를 향상해 보세요. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.

분야별 모델

분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요.

손쉽게 품질 비교

사용하기 쉬운 사용자 인터페이스로 음성 오디오를 실험하세요. 다양한 구성을 사용해 보며 품질과 정확성을 최적화하세요.

Speech On-Device

인터넷 연결에 관계없이 모든 기기에서 Google Cloud의 음성 알고리즘을 로컬로 실행하세요. 사용자의 음성 데이터는 사용자 기기 외에 다른 곳으로 절대 전송되지 않습니다.

Speech-to-Text 기반 모델

수백만 시간의 오디오 데이터와 수십억 개의 텍스트 문장으로 학습된 음성용 Google Cloud 기반 모델인 Chirp로 구동되는 음성 모델을 사용하여 전 세계 잠재고객을 위한 음성 지원 애플리케이션을 빌드하세요. 

모든 기능 보기

문서

튜토리얼 및 시작하기 리소스

튜토리얼
Speech-to-Text 콘솔 내 튜토리얼

Speech-to-Text를 기존 앱에 추가하는 방법을 알아보세요. 콘솔 내 튜토리얼로 빠르게 시작할 수 있습니다.

Google Cloud 기본사항
Speech-to-Text 기본사항

Speech-to-Text의 기본 개념을 알아봅니다.

빠른 시작
빠른 시작: Speech-to-Text UI 사용

프로젝트 및 승인을 설정하고, 스크립트를 작성하여 다듬고, 콘솔에서 이러한 구성을 사용하는 방법을 알아봅니다.

빠른 시작
빠른 시작: gcloud 도구 사용

명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 스크립트 작성 요청을 보냅니다.

권장사항
권장사항

Speech-to-Text를 사용하여 오디오의 스크립트를 작성하기 위한 권장사항을 검토합니다.

튜토리얼
ML 도입

Speech-to-Text 튜토리얼, Codelab 등을 살펴보세요.

Google Cloud 기본사항
지원 언어

Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.

Google Cloud 기본사항
Speech-to-Text On-Prem

Google 음성 인식 기술을 온프레미스 솔루션에 손쉽게 통합할 수 있게 해주는 Speech-to-Text On-Prem에 대해 자세히 알아보세요.

사용 사례

사용 사례

사용 사례
고객 서비스 개선

콜센터에 IVR(대화형 음성 응답)과 에이전트 대화를 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화와 고객에 대한 유용한 정보를 더 많이 확보할 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.

워크플로: 데이터가 고객센터 오디오 데이터에서 Google Cloud 제품을 거쳐 이동하는 과정: Cloud Storage에서 (1) 스크립트 작성을 거쳐 Speech-to-Text API로 향한 뒤 Natural Language API에서 (2) 분석을 거쳐 Cloud Data Loss Prevention으로 향한 다음 (3) 개인 식별 정보 수정을 거쳐 BigQuery로 이동합니다. 그런 다음 흐름은 BigQuery (4) 저장에서 통화 데이터 시각화를 사용한 (5) 쿼리 및 시각화로 양방향 이동합니다.
사용 사례
음성 제어 사용 설정

'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.

Speech-to-Text API를 사용하는 음성 제어 워크플로. (1) 사용자 음성 명령으로 시작된 흐름이 사용자 기기로 향하며 사용자 기기에는 Cloud IoT Core로 향하는 (0) 고유한 보안 ID 양방향 흐름과 Cloud Functions로 향하는 양방향 흐름이 존재합니다. Cloud Functions에서 (2) 스크립트 작성을 거쳐 Speech-to-Text API로 향한 후 이어서 AutoML Natural Language로 향하며 (3) 인텐트 및 항목 추출을 거쳐 다시 Cloud Functions와 사용자 기기로 이어집니다.
사용 사례
멀티미디어 콘텐츠 스크립트 작성

오디오 및 동영상의 스크립트를 작성하여 자막을 포함시키고 잠재고객 도달범위와 경험을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 스크립트 작성 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.

멀티미디어 콘텐츠 스크립트 작성 워크플로: 입력 오디오 스트림이 (1) 실시간 자막을 거쳐 Google Kubernetes Engine으로 향한 다음 Speech-to-Text API로 이동하며 (2) 스크립트 작성 평가를 거쳐 딥 러닝 VM으로 향한 후 이어서 Firestore로 향합니다. 여기에서 콘텐츠 검토팀이나 (3) 저장 및 활용을 거쳐 브로드캐스트 자막 기기로 이동합니다.

모든 기능

모든 기능

전 세계의 다양한 어휘 지원 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다.
스트리밍 음성 인식 API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.
음성 적응 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어의 스크립트를 작성하도록 음성 인식을 맞춤설정할 수 있으며 특정 단어 또는 어구의 스크립트 작성 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.
Speech-to-Text On-Prem 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요.
멀티 채널 인식 Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다.
잡음 환경에 강건한 음성 인식 기능 Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경의 소음이 있는 오디오를 처리할 수 있습니다.
분야별 모델 분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.
콘텐츠 필터링 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다.
스크립트 작성 평가 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다.
자동 구두점(베타) Speech-to-Text는 스크립트 작성 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다.
화자 분할(베타) 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다.

가격 책정

가격 책정

Speech-to-Text는 서비스에서 매달 성공적으로 처리한 오디오의 양(1초 단위로 측정됨)을 기준으로 가격을 책정합니다.