커스텀 음성 모델 개요

커스텀 Speech-to-Text 모델은 특정 요구에 맞게 음성 인식 모델을 미세 조정할 수 있게 해줍니다. 이 서비스는 분야별 오디오 및 텍스트 데이터를 사용하여 다양한 환경과 사용 사례에서 음성 인식 서비스의 정확성과 관련성을 향상시키도록 설계되었습니다.

Google Cloud 콘솔 및 API에서 액세스할 수 있는 커스텀 Speech-to-Text 모델을 사용하면 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성을 학습 세트로 사용하지 않고 오디오 조건을 나타내는 오디오 데이터만 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.

커스텀 Speech-to-Text 모델 만들기 및 사용에는 다음 단계가 포함됩니다.

  1. Cloud Storage 버킷에서 학습 데이터를 준비하고 업로드합니다.
  2. 새 커스텀 모델을 학습시킵니다.
  3. 엔드포인트를 사용하여 커스텀 모델을 배포하고 관리합니다.
  4. 애플리케이션에서 커스텀 모델을 사용하고 평가하세요.

기본 원리

커스텀 Speech-to-Text 모델을 사용하여 기본 스크립트 작성 모델을 보강함으로써 스크립트 작성 인식을 개선할 수 있습니다. 사이렌 소리, 음악, 과도한 배경 소음 등 일부 오디오 조건은 음향 문제를 일으킬 수 있습니다. 특정 억양 또는 특이한 어휘(예: 제품 이름)도 문제를 일으킬 수 있습니다.

모든 커스텀 Speech-to-Text 모델은 일반적으로 사용되는 언어의 독점 데이터로 사전 학습된 Conformer 기반 아키텍처를 기반 모델로 사용합니다. 학습 프로세스 중에는 원래 가중치의 상당 부분을 조정하여 애플리케이션에 특정한 분야별 어휘 및 오디오 조건의 인식을 개선하기 위해 기본 모델이 미세 조정됩니다.

커스텀 Speech-to-Text 모델을 효과적으로 학습시키려면 다음을 제공해야 합니다.

  • 오디오 시간 최소 100시간의 학습 데이터(오디오만 또는 실사본의 해당 텍스트 스크립트가 있는 오디오). 이 데이터는 초기 학습 단계에서 중요하므로 모델이 음성 패턴과 어휘의 미묘한 차이를 포괄적으로 학습합니다. 자세한 내용은 정답 데이터 세트 만들기를 참조하세요.
  • 오디오 시간 최소 10시간 분량의 검증 데이터로 구성된 별도의 데이터 세트(실사본의 해당 텍스트 스크립트가 있는 오디오). 예상되는 형식 및 정답 규칙에 대한 자세한 내용은 데이터 준비 안내를 참고하세요.

학습을 성공적으로 마치면 클릭 한 번으로 커스텀 Speech-to-Text 모델을 엔드포인트에 배포하고 Cloud Speech-to-Text V2 API를 통해 직접 추론과 벤치마킹에 사용할 수 있습니다.

지원되는 모델, 언어, 리전

커스텀 Speech-to-Text 모델 학습은 다음과 같은 모델, 언어, 지역 조합을 지원합니다.

언어 BCP-47 기본 모델

독일어(독일)

de-DE

latest_long

영어(오스트레일리아)

en-AU

latest_long

영어(영국)

en-GB

latest_long

영어(인도)

en-IN

latest_long

영어(미국)

en-US

latest_long

스페인어(미국)

es-US

latest_long

스페인어(스페인)

es-ES

latest_long

French (Canada)

fr-CA

latest_long

프랑스어(프랑스)

fr-FR

latest_long

힌디어(인도)

hi-IN

latest_long

이탈리아어(이탈리아)

it-IT

latest_long

일본어(일본)

ja-JP

latest_long

한국어(대한민국)

ko-KR

latest_long

네덜란드어(네덜란드)

nl-NL

latest_long

포르투갈어(브라질)

pt-BR

latest_long

포르투갈어(포르투갈)

pt-PT

latest_long

또한 데이터 상주 요구사항을 준수하기 위해 Google은 여러 리전에 학습 및 배포 하드웨어를 제공합니다. 전용 하드웨어는 다음과 같은 모델 및 리전 조합에서 지원됩니다.

기본 모델 Google Cloud 리전 지원되는 태스크

latest_long

us-east1

학습배포

latest_long

europe-west4

학습배포

할당량

커스텀 Speech-to-Text 모델 학습의 경우 각 Google Cloud 프로젝트에는 여러 학습 작업을 동시에 실행하기에 충분한 기본 할당량이 있어야 하며 추가 조정 없이 대부분의 프로젝트의 요구사항을 충족하도록 되어 있습니다. 하지만 더 많은 수의 동시 학습 작업을 실행해야 하거나 더 광범위한 라벨링 또는 컴퓨팅 리소스가 필요한 경우에는 추가 할당량을 요청하세요.

엔드포인트 배포를 제공하는 커스텀 Speech-to-Text 모델의 경우 각 엔드포인트의 이론적 한도는 초당 쿼리 수(QPS) 20개입니다. 더 높은 처리량이 필요한 경우 추가 제공 할당량을 요청하세요.

가격 책정

커스텀 Speech-to-Text 모델을 만들고 사용하려면 모델의 학습 및 후속 배포 중에 사용된 리소스를 기준으로 하는 특정 비용이 발생합니다. 특히 커스텀 Speech-to-Text 모델에서는 일반적인 모델 수명 주기에서 다음과 같은 비용이 발생합니다.

  • 학습: 모델 학습 시간에 따라 비용이 청구됩니다. 이 시간은 학습 데이터 세트의 오디오 시간에 비례합니다. 일반적으로 학습에는 데이터 세트의 오디오 시간의 10분의 1이 사용됩니다.
  • 배포: 모델이 엔드포인트에 배포된 시간별로 요금이 청구됩니다.
  • 추론: 일반적인 Speech-to-Text 청구에 맞게 스크립트 작성에 사용되는 오디오 스트리밍 시간(초)에 대한 요금이 청구됩니다.

효과적인 예산 책정과 리소스 할당을 위해서는 이러한 비용을 이해하는 것이 중요합니다. 자세한 내용은 커스텀 Speech-to-Text 모델 섹션의 Cloud Speech-to-Text 가격 책정을 참조하세요.

다음 단계

다음 리소스를 따라 애플리케이션에서 커스텀 음성 모델을 활용하세요.