커스텀 음성 모델 개요

커스텀 Speech-to-Text 모델을 사용하면 특정 요구사항에 맞게 음성 인식 모델을 미세 조정할 수 있습니다. 이 서비스는 도메인별 오디오 및 텍스트 데이터를 사용하여 다양한 환경과 사용 사례에서 음성 인식 서비스의 정확성과 관련성을 개선하도록 설계되었습니다.

Google Cloud 콘솔 및 API에서 액세스할 수 있는 커스텀 Speech-to-Text 모델을 사용하면 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성 없이 오디오 상태를 대표하는 오디오 데이터만 학습 세트로 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.

맞춤 음성 텍스트 변환 모델을 만들고 사용하려면 다음 단계를 따르세요.

  1. Cloud Storage 버킷에서 학습 데이터를 준비하고 업로드합니다.
  2. 새 커스텀 모델 학습
  3. 엔드포인트를 사용하여 커스텀 모델을 배포하고 관리합니다.
  4. 애플리케이션에서 커스텀 모델을 사용하고 평가합니다.

기본 원리

커스텀 Speech-to-Text 모델을 사용하여 기본 스크립트 작성 모델을 보강함으로써 스크립트 작성 인식을 개선할 수 있습니다. 사이렌, 음악, 과도한 배경 소음 등 일부 오디오 환경에서는 음향 문제가 발생할 수 있습니다. 특정 억양 또는 특이한 어휘(예: 제품 이름)도 문제를 일으킬 수 있습니다.

모든 커스텀 Speech-to-Text 모델은 일반적으로 사용되는 언어의 독점 데이터로 사전 학습된 Conformer 기반 아키텍처를 기반 모델로 사용합니다. 학습 프로세스 중에는 원래 가중치의 상당 부분을 조정하여 애플리케이션에 특정한 분야별 어휘 및 오디오 조건의 인식을 개선하기 위해 기본 모델이 미세 조정됩니다.

커스텀 Speech-to-Text 모델을 효과적으로 학습하려면 다음을 제공해야 합니다.

  • 오디오 시간 최소 100시간의 학습 데이터(오디오만 또는 실사본의 해당 텍스트 스크립트가 있는 오디오). 이 데이터는 초기 학습 단계에서 중요하므로 모델이 음성 패턴과 어휘의 미묘한 차이를 포괄적으로 학습합니다. 자세한 내용은 정답 데이터 세트 만들기를 참조하세요.
  • 오디오 시간 최소 10시간 분량의 검증 데이터로 구성된 별도의 데이터 세트(실사본의 해당 텍스트 스크립트가 있는 오디오). 예상되는 형식과 따라야 할 실측값 관례에 대한 자세한 내용은 데이터 준비 안내를 참고하세요.

학습이 완료되면 클릭 한 번으로 엔드포인트에 커스텀 Speech-to-Text 모델을 배포하고 Cloud Speech-to-Text V2 API를 통해 직접 사용하여 추론 및 벤치마킹을 수행할 수 있습니다.

지원되는 모델, 언어, 지역

커스텀 Speech-to-Text 모델 학습은 다음과 같은 모델, 언어, 지역 조합을 지원합니다.

언어 BCP-47 기본 모델

독일어(독일)

de-DE

latest_long

영어(오스트레일리아)

en-AU

latest_long

영어(영국)

en-GB

latest_long

영어(인도)

en-IN

latest_long

영어(미국)

en-US

latest_long

스페인어(미국)

es-US

latest_long

스페인어(스페인)

es-ES

latest_long

French (Canada)

fr-CA

latest_long

프랑스어(프랑스)

fr-FR

latest_long

힌디어(인도)

hi-IN

latest_long

이탈리아어(이탈리아)

it-IT

latest_long

일본어(일본)

ja-JP

latest_long

한국어(대한민국)

ko-KR

latest_long

네덜란드어(네덜란드)

nl-NL

latest_long

포르투갈어(브라질)

pt-BR

latest_long

포르투갈어(포르투갈)

pt-PT

latest_long

또한 데이터 상주 요구사항을 준수하기 위해 Google은 여러 리전에 학습 및 배포 하드웨어를 제공합니다. 전용 하드웨어는 다음과 같은 모델 및 리전 조합에서 지원됩니다.

기본 모델 Google Cloud 지역 지원되는 태스크

latest_long

us-east1

학습배포

latest_long

europe-west4

학습배포

할당량

맞춤 음성 텍스트 변환 모델 학습의 경우 각 Google Cloud 프로젝트에는 여러 학습 작업을 동시에 실행하기에 충분한 기본 할당량이 있어야 하며 추가 조정 없이 대부분의 프로젝트 요구사항을 충족하도록 설계되었습니다. 하지만 더 많은 수의 동시 학습 작업을 실행해야 하거나 더 광범위한 라벨링 또는 컴퓨팅 리소스가 필요한 경우 추가 할당량을 요청하세요.

엔드포인트 배포를 제공하는 커스텀 Speech-to-Text 모델의 경우 각 엔드포인트의 이론적 한도는 초당 쿼리 수(QPS) 20개입니다. 더 높은 처리량이 필요한 경우 추가 제공 할당량을 요청하세요.

가격 책정

커스텀 Speech-to-Text 모델을 만들고 사용하면 주로 모델의 학습 및 후속 배포 중에 사용되는 리소스에 따라 특정 비용이 발생합니다. 구체적으로 커스텀 Speech-to-Text 모델은 일반적인 모델 수명 주기에서 다음과 같은 비용이 발생합니다.

  • 학습: 모델 학습 시간에 따라 요금이 청구됩니다. 이 시간은 학습 데이터 세트의 오디오 시간에 비례합니다. 일반적으로 학습에는 데이터 세트의 오디오 시간의 10분의 1이 사용됩니다.
  • 배포: 모델이 엔드포인트에 배포되는 시간당 요금이 청구됩니다.
  • 추론: 일반 Speech-to-Text 결제에 따라 스크립트 작성을 위해 스트리밍된 오디오의 초 수가 청구됩니다.

효과적인 예산 책정과 리소스 할당을 위해서는 이러한 비용을 이해하는 것이 중요합니다. 자세한 내용은 커스텀 Speech-to-Text 모델 섹션의 Cloud Speech-to-Text 가격 책정을 참조하세요.

다음 단계

애플리케이션에서 커스텀 음성 모델을 활용하려면 다음 리소스를 따르세요.