Speech-to-Text

Google AI 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.

무료 체험하기
  • action/check_circle_24px Sketch로 작성되었습니다.

    정확한 캡션으로 콘텐츠 텍스트 변환

  • action/check_circle_24px Sketch로 작성되었습니다.

    음성 명령어를 통해 제품에 더 나은 사용자 환경 제공

  • action/check_circle_24px Sketch로 작성되었습니다.

    서비스 향상을 위해 고객 상호작용에 대한 유용한 정보 도출

최고의 정확성

자동 음성 인식(ASR)을 위해 Google의 최고급 딥 러닝 신경망 알고리즘을 적용합니다.

전 세계적인 도달 범위

125개가 넘는 언어 및 방언을 지원하는 음성 인식 기능으로 전 세계 사용자들의 요구를 충족시킬 수 있습니다.

가속화된 혁신

Text-to-Speech자연어 분야에서 Google 최고의 기술들을 결합하여 음성 봇, 음성 감정 분석과 같은 사용 사례를 지원할 수 있습니다.

Speech-to-Text 활용

주요 기능

음성 적응

음성 인식 맞춤설정을 통해 힌트 제공으로 분야별 용어 및 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 변환할 수 있습니다.

분야별 모델

분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환에 맞게 학습 모델 옵션을 선택적으로 사용할 수 있습니다. 예를 들어 향상된 전화 통화 모델은 8khz 샘플링 레이트로 녹음된 전화 통화와 같이 전화로 녹음된 오디오에 맞게 조정되어 있습니다.

음성 인식 스트리밍

API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.

모든 기능 보기

문서

Google Cloud 기본사항
Speech-to-Text 기본사항

Speech-to-Text의 기본 개념을 알아봅니다.

빠른 시작
빠른 시작: gcloud 도구 사용

명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 텍스트 변환 요청을 보냅니다.

권장사항
권장사항

Speech-to-Text를 사용하여 오디오를 텍스트로 변환하기 위한 권장사항을 검토합니다.

가이드
ML 도입

Speech-to-Text 가이드, Codelab 등을 살펴보세요.

Google Cloud 기본사항
지원 언어

Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.

사용 사례

사용 사례
고객 서비스 개선

IVR(대화형 음성 응답) 및 에이전트 대화를 콜센터에 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화 및 고객에 대한 더 많은 유용한 정보를 얻을 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.

Speech-to-Text 기술이 포함된 Contact Center AI를 사용하여 고객 서비스 향상
사용 사례
음성 제어 사용 설정

'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.

Speech-to-Text API를 사용하는 음성 제어 워크플로
사용 사례
멀티미디어 콘텐츠 텍스트 변환

오디오 및 동영상의 텍스트 변환을 통해 자막을 포함시켜서 잠재고객 도달범위와 환경을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 변환 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.

멀티미디어 콘텐츠 텍스트 변환 워크플로

모든 기능

전 세계의 다양한 어휘 지원 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다.
음성 인식 스트리밍 API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.
음성 적응 음성 인식 맞춤설정을 통해 힌트 제공으로 분야별 용어 및 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 변환할 수 있습니다.
멀티 채널 인식 Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다.
강력한 소음 인식 기능 Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리할 수 있습니다.
분야별 모델 분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환을 위해 학습 모델 옵션을 선택적으로 사용할 수 있습니다. 예를 들어 향상된 전화 통화 모델은 8khz 샘플링 레이트로 녹음된 전화 통화와 같이 전화로 녹음된 오디오에 맞게 조정되어 있습니다.
콘텐츠 필터링 욕설 필터는 오디오 데이터에서 부적절하거나 전문가 답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다.
언어 자동 감지(베타) 최대 4개까지 언어 코드를 지정하면 Speech-to-Text가 다국어 시나리오에서 발화되는 언어를 올바르게 인식합니다.
자동 구두점(베타) Speech-to-Text는 텍스트 변환의 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다.
화자 분할(베타) 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다.

가격 책정

Speech-to-Text의 가격은 무료 등급 60분이 소진된 이후 오디오 15초 단위로 책정됩니다.