Speech-to-Text

Google AI를 사용해 음성을 텍스트로 변환하기

사용하기 쉬운 API를 사용하여 오디오를 텍스트 스크립트로 변환하고 음성 인식을 애플리케이션에 통합하세요.

신규 고객에게는 매월 $300의 무료 크레딧과 60분*의 무료 오디오 스크립트 작성 및 분석이 제공되며 크레딧이 차감되지 않습니다.

*Speech-to-Text V1 API로 오디오를 처리하는 경우에만 적용됩니다.

기능

고급 음성 AI

Speech-to-Text는 수백만 시간의 오디오 데이터와 수십억 개의 텍스트 문장으로 학습된 음성용 Google Cloud 기반 모델인 Chirp를 활용할 수 있습니다. 이는 대량의 언어별 지도 데이터에 중점을 둔 기존 음성 인식 기술과 대조됩니다. 이러한 기법을 통해 더 많은 언어와 억양에 맞게 개선된 인식 및 스크립트 작성을 사용자에게 제공할 수 있습니다.

125개 언어 및 방언 지원

광범위한 언어 지원을 통해 전 세계적 사용자층에 맞게 빌드하세요. 짧거나 긴 오디오 데이터, 스트리밍 오디오 데이터를 스크립트로 작성할 수 있습니다. 또한 Speech-to-Text는 차세대 범용 음성 모델인 Chirp를 통해 전 세계를 아우르는 정확한 번역 및 인식을 사용자에게 제공합니다. Chirp는 수백만 시간의 오디오와 100개 이상의 언어에 걸친 280억 개 문장에 대한 자체 지도 학습을 통해 빌드되었습니다.

사전 학습되었거나 맞춤설정 가능한 스크립트 작성 모델

분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요. Speech-to-Text UI로 커스텀 리소스를 손쉽게 맞춤설정, 실험, 생성, 관리할 수 있습니다.

규제 및 보안 규정 준수 즉시 사용 가능

Speech-to-Text API v2는 기업 및 비즈니스 고객이 추가 보안 및 규제 요건을 즉시 충족할 수 있도록 지원합니다. 데이터 상주를 사용하면 싱가포르 및 벨기에와 같은 Google Cloud 리전을 활용하는 완전히 리전화된 서비스를 통해 스크립트 작성 모델을 호출할 수 있습니다. 인식기 리소스 많음 덕분에 인증 및 승인을 위한 전용 서비스 계정이 필요하지 않습니다. 리소스 생성 및 스크립트 작성을 위한 로그는 Google Cloud 콘솔에서 손쉽게 사용할 수 있습니다. 또한 Speech-to-Text API v2는 일괄 스크립트 작성은 물론 모든 리소스에 대해 고객 관리 암호화 키를 사용한 엔터프라이즈급 암호화를 제공합니다.


AI 기반 음성 인식 및 스크립트 작성

Speech-to-Text는 모델 적응을 사용하여 자주 사용하는 단어의 정확도를 개선하고, 스크립트 작성에 사용할 수 있는 어휘를 확장하며, 소음이 많은 오디오의 스트립트 작성을 개선합니다. 사용자는 모델 적응을 통해 Speech-to-Text가 추천될 수 있는 다른 옵션보다 특정 단어나 문구를 더 자주 인식하도록 맞춤설정할 수 있습니다. 예를 들어 Speech-to-Text가 'whether'보다 'weather'를 편향되게 스크립트를 작성하도록 할 수 있습니다.

음성 인식 스트리밍

API가 애플리케이션의 마이크로부터 스트리밍되거나 사전 녹음된 오디오 파일로부터 전송되는(인라인 또는 Cloud Storage 사용) 오디오 입력을 처리할 때 음성 인식 결과를 실시간으로 수신할 수 있습니다.


음성 적응

힌트를 제공하여 분야별 용어와 많이 쓰이지 않는 단어의 스크립트를 작성하도록 음성 인식을 맞춤설정할 수 있으며 특정 단어 또는 어구의 스크립트 작성 정확도를 향상시킬 수 있습니다. 클래스를 사용해서 음성으로 인식된 숫자를 주소, 연도, 통화 등으로 자동 변환할 수 있습니다.

Speech-to-Text On-Prem

인프라와 보호되는 음성 데이터에 대한 완전한 통제력을 유지하면서 자체 비공개 데이터 센터에서 온프레미스로 바로 Google의 음성 인식 기술을 활용하세요. 시작하려면 영업팀에 문의하세요.

멀티 채널 인식

Speech-to-Text는 멀티 채널 상황(예: 화상 회의)에서 개별 채널을 인식하고 순서에 맞게 스크립트에 주석을 달 수 있습니다.

강력한 소음 제거 기능

Speech-to-Text는 별도로 주변 소음을 제거할 필요 없이 다양한 환경의 소음이 있는 오디오를 처리할 수 있습니다.

분야별 모델

분야별 품질 요구사항에 따라 최적화된 학습된 모델 유형을 선택하여 음성 제어, 전화 통화, 동영상 스크립트 작성에 사용하세요. 예를 들어 Google의 향상된 전화 통화 모델은 8kHz 샘플링 레이트로 녹음된 전화 통화와 같이 전화에서 유래된 오디오에 맞게 조정되어 있습니다.

콘텐츠 필터링

욕설 필터는 오디오 데이터에서 부적절하거나 전문가답지 않은 콘텐츠를 감지하고 텍스트 결과에서 욕설 표현을 필터링합니다.

스크립트 작성 평가

자체 음성 데이터를 업로드하여 코딩 없이 스크립트를 작성하세요. 구성을 반복하여 품질을 평가할 수 있습니다.

자동 구두점(베타)

Speech-to-Text는 쉼표, 물음표, 마침표 등을 추가하여 스크립트 작성 시 구두점 정확하게 추가합니다.


화자 분할

대화 참여자의 각 발언에 대한 자동 예측을 수신하여 누가 어떤 발언을 했는지 알 수 있습니다.

작동 방식

Speech-to-Text에는 음성 인식을 수행하는 세 가지 주요 방법인 동기식, 비동기식, 스트리밍이 있습니다. 각 방법은 후처리 중, 주기적으로 또는 실시간으로 스크립트 작성이 필요한지 여부에 따라 텍스트 결과를 반환합니다. 간단히 말해서, 오디오 데이터를 입력한 다음 텍스트 기반 응답을 받게 됩니다.

앱에 Speech-to-Text 추가
Speech-to-Text를 앱에 추가하는 방법 알아보기

데모

Speech-to-Text API 테스트

파일 업로드 또는 마이크에 대고 말하여 오디오 스크립트를 빠르게 작성합니다.

일반적인 용도

오디오 스크립트 작성

오디오 스크립트 작성

간단한 단계만으로 오디오 스크립트를 작성하여 Cloud 콘솔 내에서 Speech-to-Text API를 사용하는 방법을 알아보세요. 짧거나 긴 오디오, 스트리밍 오디오 스크립트를 작성할 수도 있습니다.

Speech-to-Text 사용 시작
오디오 스크립트 작성 UI

오디오 스크립트 작성

간단한 단계만으로 오디오 스크립트를 작성하여 Cloud 콘솔 내에서 Speech-to-Text API를 사용하는 방법을 알아보세요. 짧거나 긴 오디오, 스트리밍 오디오 스크립트를 작성할 수도 있습니다.

Speech-to-Text 사용 시작
오디오 스크립트 작성 UI

AI를 사용해 동영상 자막 제공

AI를 사용해 동영상 자막 만들기

오디오 및 동영상의 스크립트를 작성하여 자막을 포함할 수 있습니다. 기존 콘텐츠에 자막을 추가하거나 스트리밍 콘텐츠에 실시간으로 자막을 추가할 수 있습니다. Google의 동영상 스크립트 작성 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작에 사용하는 것과 유사한 머신러닝 기술을 사용합니다. 이 튜토리얼에서는 Google Cloud AI 서비스인 Speech-to-Text API와 Translation API를 사용해 동영상에 자막을 추가하고 다른 언어로 현지화된 자막을 제공하는 방법을 설명합니다.

자동 자막 튜토리얼 보기
Speech-to-Text 자막 생성

AI를 사용해 동영상 자막 만들기

오디오 및 동영상의 스크립트를 작성하여 자막을 포함할 수 있습니다. 기존 콘텐츠에 자막을 추가하거나 스트리밍 콘텐츠에 실시간으로 자막을 추가할 수 있습니다. Google의 동영상 스크립트 작성 모델은 동영상 또는 화자가 여러 명인 콘텐츠의 색인을 생성하거나 자막을 제작하는 데 적합하며, YouTube 동영상 자막 제작에 사용하는 것과 유사한 머신러닝 기술을 사용합니다. 이 튜토리얼에서는 Google Cloud AI 서비스인 Speech-to-Text API와 Translation API를 사용해 동영상에 자막을 추가하고 다른 언어로 현지화된 자막을 제공하는 방법을 설명합니다.

자동 자막 튜토리얼 보기
Speech-to-Text 자막 생성

앱에 Speech-to-Text 추가

Speech-to-Text를 앱에 추가하는 방법

Google Cloud를 사용하여 애플리케이션에 Speech-to-Text를 빠르고 쉽게 사용 설정하는 방법을 알아보세요. 이 동영상에서는 광범위한 머신러닝 모델 경험 없어도 애플리케이션에 AI를 추가하는 방법을 다룹니다. 선행 학습된 Speech-to-Text API를 사용하면 쉽고 빠르게 애플리케이션에 AI를 사용 설정할 수 있습니다.

예시 동영상 보기
Google AI 및 API UI를 활용한 고급 스크립트 작성

Speech-to-Text를 앱에 추가하는 방법

Google Cloud를 사용하여 애플리케이션에 Speech-to-Text를 빠르고 쉽게 사용 설정하는 방법을 알아보세요. 이 동영상에서는 광범위한 머신러닝 모델 경험 없어도 애플리케이션에 AI를 추가하는 방법을 다룹니다. 선행 학습된 Speech-to-Text API를 사용하면 쉽고 빠르게 애플리케이션에 AI를 사용 설정할 수 있습니다.

예시 동영상 보기
Google AI 및 API UI를 활용한 고급 스크립트 작성

오디오를 텍스트로 번역

Google Cloud API를 통한 언어, 음성, 텍스트, 번역

이 과정에서는 Speech-to-Text API를 사용하여 오디오 파일을 텍스트 파일로 변환하고, Google Cloud Translation API로 번역하고, Natural Language API로 합성 음성을 만듭니다.

과정 시작하기
Speech-to-Text 과정

Google Cloud API를 통한 언어, 음성, 텍스트, 번역

이 과정에서는 Speech-to-Text API를 사용하여 오디오 파일을 텍스트 파일로 변환하고, Google Cloud Translation API로 번역하고, Natural Language API로 합성 음성을 만듭니다.

과정 시작하기
Speech-to-Text 과정

가격 책정

Speech-to-Text 가격 책정 방식Speech-to-Text 가격은 API 버전, 채널, 일괄 메서드, 추가 Google Cloud 서비스 비용(예: 스토리지)에 따라 책정됩니다.
API 버전서비스 및 기능가격 책정

Speech-to-Text V1 API

V1은 멀티 리전에만 데이터 상주를 제공합니다. 모델에는 짧은, 긴, 전화 통화, 동영상이 포함됩니다. V1에는 감사 로깅이 포함되어 있지 않습니다. 신규 고객에게는 매월 $300의 무료 크레딧과 60분의 무료 오디오 스크립트 작성 및 분석이 제공되며 크레딧이 차감되지 않습니다.

$0.024

분당

Speech-to-Text V2 API


V2는 멀티 리전 및 단일 리전에 데이터 상주를 제공합니다. 모델에는 짧은, 긴, 전화, 동영상, Chirp가 포함됩니다. V2에는 감사 로깅과 고객 관리 암호화 키에 대한 지원이 포함됩니다.

$0.016

분당

Speech-to-Text의 가격 책정 세부정보를 확인하세요.

Speech-to-Text 가격 책정 방식

Speech-to-Text 가격은 API 버전, 채널, 일괄 메서드, 추가 Google Cloud 서비스 비용(예: 스토리지)에 따라 책정됩니다.

Speech-to-Text V1 API

서비스 및 기능

V1은 멀티 리전에만 데이터 상주를 제공합니다. 모델에는 짧은, 긴, 전화 통화, 동영상이 포함됩니다. V1에는 감사 로깅이 포함되어 있지 않습니다. 신규 고객에게는 매월 $300의 무료 크레딧과 60분의 무료 오디오 스크립트 작성 및 분석이 제공되며 크레딧이 차감되지 않습니다.

가격 책정

$0.024

분당

Speech-to-Text V2 API


서비스 및 기능

V2는 멀티 리전 및 단일 리전에 데이터 상주를 제공합니다. 모델에는 짧은, 긴, 전화, 동영상, Chirp가 포함됩니다. V2에는 감사 로깅과 고객 관리 암호화 키에 대한 지원이 포함됩니다.

가격 책정

$0.016

분당

Speech-to-Text의 가격 책정 세부정보를 확인하세요.

가격 계산기

리전별 가격 및 수수료를 포함한 월별 Speech-to-Text 비용을 예측해 볼 수 있습니다.

커스텀 견적

영업팀에 문의하여 조직에 대한 커스텀 견적을 받아 보세요.

개념 증명 시작

신규 고객에게 $300의 무료 크레딧 제공

콘솔 내 튜토리얼로 스크립트 작성 시작

Speech-to-Text On-Prem

Speech-to-Text 기본사항

Speech-to-Text 코드 샘플

Google Cloud
  • ‪English‬
  • ‪Deutsch‬
  • ‪Español‬
  • ‪Español (Latinoamérica)‬
  • ‪Français‬
  • ‪Indonesia‬
  • ‪Italiano‬
  • ‪Português (Brasil)‬
  • ‪简体中文‬
  • ‪繁體中文‬
  • ‪日本語‬
  • ‪한국어‬
콘솔
  • 투명한 가격 책정 방식으로 비용 절감
  • Google Cloud는 사용한 만큼만 지불하는 가격 책정 방식으로 월별 사용량과 선불 리소스의 할인율을 기준으로 자동 할인을 제공합니다. 지금 Google에 문의하여 견적을 받아보세요.
Google Cloud