바로 이동

Speech-to-Text

Google AI 기술로 지원되는 API를 사용하여 음성을 텍스트로 정확하게 변환할 수 있습니다.

  • action/check_circle_24px Sketch로 작성되었습니다.

    정확한 캡션으로 콘텐츠 텍스트 변환

  • action/check_circle_24px Sketch로 작성되었습니다.

    음성 명령어를 통해 제품에 더 나은 사용자 환경 제공

  • action/check_circle_24px Sketch로 작성되었습니다.

    고객 상호작용에서 유용한 정보를 도출하여 서비스 향상

이점

최고의 정확성

Google의 최첨단 자동 음성 인식(ASR) 딥 러닝 신경망 알고리즘을 적용합니다.

손쉽게 모델 맞춤설정

Speech-to-Text UI를 사용하면 커스텀 리소스를 실험, 생성, 관리할 수 있습니다.

유연한 배포

클라우드에서는 API를 사용하고 온프레미스에서는 Speech-to-Text On-Prem을 사용하여 필요한 모든 곳에 음성 인식을 배포할 수 있습니다.

데모

Speech-to-Text 활용

이 데모에서와 같이 Speech-to-Text API를 사용하여 음성 텍스트 변환을 애플리케이션에 간편하게 도입할 수 있습니다.

주요 특징

주요 특징

음성 적응

음성 인식 맞춤설정을 통해 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.

분야별 모델

분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환에 맞게 학습 모델 옵션을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.

손쉽게 품질 비교

사용하기 쉬운 사용자 인터페이스로 음성 오디오를 실험하세요. 다양한 구성을 사용해 보며 품질과 정확성을 최적화하세요.

Speech-to-Text On-Prem

인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요.

모든 특징 보기

새로운 소식

Google Cloud 뉴스레터를 신청하여 제품 업데이트, 행사 정보, 특별 이벤트 등의 소식을 받아보세요.

문서

문서

Google Cloud 기본사항
Speech-to-Text 기본사항

Speech-to-Text의 기본 개념을 알아봅니다.

빠른 시작
빠른 시작: Speech-to-Text UI 사용

프로젝트 및 승인을 설정하고, 스크립트를 작성하여 다듬고, Console에서 이러한 구성을 사용하는 방법에 대하여 알아봅니다.

빠른 시작
빠른 시작: gcloud 도구 사용

명령줄에서 gcloud 도구를 사용하여 Speech-to-Text에 오디오 텍스트 변환 요청을 보냅니다.

권장사항
권장사항

Speech-to-Text를 사용하여 오디오를 텍스트로 변환하기 위한 권장사항을 검토합니다.

튜토리얼
ML 도입

Speech-to-Text 튜토리얼, Codelab 등을 살펴보세요.

Google Cloud 기본사항
지원 언어

Speech-to-Text에서 사용 가능한 언어와 각 언어에 제공되는 기능 및 인식 모델에 대해 알아보세요.

Google Cloud 기본사항
Speech-to-Text On-Prem

Google 음성 인식 기술을 온프레미스 솔루션에 손쉽게 통합할 수 있게 해주는 Speech-to-Text On-Prem에 대해 자세히 알아보세요.

사용 사례

사용 사례

사용 사례
고객 서비스 개선

콜센터에 IVR(대화형 음성 응답)과 에이전트 대화를 추가하여 고객 서비스 시스템을 향상시킬 수 있습니다. 대화 데이터 분석을 통해 통화와 고객에 대한 유용한 정보를 더 많이 얻을 수 있습니다. Speech-to-Text 및 향상된 전화 통화 모델은 이미 Google Cloud의 강력한 솔루션인 Contact Center AI에 사용되고 있습니다.

워크플로: 데이터가 고객센터 오디오 데이터에서 Google Cloud 제품을 거쳐 이동하는 과정: Cloud Storage에서 (1) 텍스트 변환을 거쳐 Speech-to-Text API, Natural Language API로 차례로 이동한 후 (2) 분석을 거쳐 Cloud Data Loss Prevention으로 이동한 다음 (3) 개인 식별 정보 수정을 거쳐 BigQuery로 이동합니다. 그런 다음 흐름이 양방향으로 이동하여 (4) 저장을 거쳐 BigQuery로 향하고 (5) 쿼리 및 시각화를 거쳐 통화 데이터 시각화로 향합니다.
사용 사례
음성 제어 사용 설정

'볼륨을 높여줘'와 같은 음성 명령과 '파리의 현재 기온은 몇 도야?'와 같은 음성 검색을 구현할 수 있습니다. 이를 Text-to-Speech API와 결합하여 IoT(사물 인터넷) 애플리케이션에서 음성 지원 환경을 제공할 수 있습니다.

Speech-to-Text API를 사용하는 음성 제어 워크플로 (1) 사용자 음성 명령으로 시작된 흐름이 사용자 기기로 향하며 사용자 기기에는 Cloud IoT Core로 향하는 (0) 고유한 보안 ID 양방향 흐름과 Cloud Functions로 향하는 양방향 흐름이 존재합니다. Cloud Functions에서 (2) 텍스트 변환을 거쳐 Speech-to-Text API로 향한 후 이어서 AutoML Natural Language로 향하며 (3) 인텐트 및 항목 추출을 거쳐 다시 Cloud Functions와 사용자 기기로 이어집니다.
사용 사례
멀티미디어 콘텐츠 텍스트 변환

오디오 및 동영상의 텍스트 변환을 통해 자막을 포함시켜서 잠재고객 도달범위와 환경을 향상시킬 수 있습니다. 스트리밍 콘텐츠에 자막을 실시간으로 추가할 수 있습니다. Google의 동영상 텍스트 변환 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작과 비슷한 머신러닝 기술을 사용합니다.

멀티미디어 콘텐츠 텍스트 변환 워크플로: 입력 오디오 스트림이 (1) 실시간 자막을 거쳐 Google Kubernetes Engine으로 향한 다음 Speech-to-Text API로 이동하며 (2) 텍스트 변환 평가를 거쳐 Deep Learning VM으로 향한 후 이어서 Firestore로 향합니다. 여기에서 콘텐츠 검토팀이나 (3) 저장 및 활용을 거쳐 브로드캐스트 자막 기기로 이동합니다.

모든 특징

모든 특징

전 세계의 다양한 어휘 지원 125개가 넘는 언어 및 방언을 지원하는 Speech-to-Text의 광범위한 언어 지원 기능으로 전 세계 사용자층을 지원할 수 있습니다.
스트리밍 음성 인식 API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.
음성 적응 음성 인식 맞춤설정을 통해 힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어를 텍스트로 변환하고 특정 단어 또는 어구의 텍스트 변환 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.
Speech-to-Text On-Prem 인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요.
멀티 채널 인식 Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다.
강력한 소음 인식 기능 Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경에서 소음이 있는 오디오를 처리할 수 있습니다.
분야별 모델 분야별 품질 요구사항에 따라 최적화된 음성 제어, 전화 통화, 동영상 텍스트 변환에 맞게 학습 모델 옵션을 선택하여 사용할 수 있습니다. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.
콘텐츠 필터링 욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다.
스크립트 작성 평가 자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다.
자동 구두점(베타) Speech-to-Text는 텍스트 변환 시 구두점(예: 쉼표, 물음표, 마침표 등)을 정확하게 추가합니다.
화자 분할(베타) 대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다.

가격 책정

가격 책정

Speech-to-Text의 가격은 무료 등급 60분이 소진된 이후 오디오 15초 단위로 책정됩니다.