이 페이지는 Cloud Translation API를 통해 번역되었습니다.

커스텀 음성 모델 개요

커스텀 Speech-to-Text 모델을 사용하면 특정 요구에 맞게 음성 인식 모델을 미세 조정할 수 있습니다. 이 서비스는 도메인별 오디오 및 텍스트 데이터를 사용하여 다양한 환경과 사용 사례에서 음성 인식 서비스의 정확성과 관련성을 향상하도록 설계되었습니다.

Google Cloud 콘솔 및 API에서 액세스할 수 있는 커스텀 Speech-to-Text 모델을 사용하면 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성 없이 오디오 조건을 대표하는 오디오 데이터만 학습 세트로 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.

커스텀 Speech-to-Text 모델을 만들고 사용하려면 다음 단계를 따르세요.

Cloud Storage 버킷에서 학습 데이터를 준비하고 업로드합니다.
새 커스텀 모델을 학습시킵니다.
엔드포인트를 사용하여 커스텀 모델을 배포하고 관리합니다.
애플리케이션에서 커스텀 모델을 사용하고 평가합니다.

기본 원리

커스텀 Speech-to-Text 모델을 사용하여 기본 스크립트 작성 모델을 보강함으로써 스크립트 작성 인식을 개선할 수 있습니다. 사이렌, 음악, 과도한 배경 소음 등 일부 오디오 조건은 음향 문제를 일으킬 수 있습니다. 특정 억양 또는 특이한 어휘(예: 제품 이름)도 문제를 일으킬 수 있습니다.

모든 커스텀 Speech-to-Text 모델은 일반적으로 사용되는 언어의 독점 데이터로 사전 학습된 Conformer 기반 아키텍처를 기반 모델로 사용합니다. 학습 프로세스 중에는 원래 가중치의 상당 부분을 조정하여 애플리케이션에 특정한 분야별 어휘 및 오디오 조건의 인식을 개선하기 위해 기본 모델이 미세 조정됩니다.

커스텀 Speech-to-Text 모델을 효과적으로 학습하려면 다음을 제공해야 합니다.

오디오 시간 최소 100시간의 학습 데이터(오디오만 또는 실사본의 해당 텍스트 스크립트가 있는 오디오). 이 데이터는 초기 학습 단계에서 중요하므로 모델이 음성 패턴과 어휘의 미묘한 차이를 포괄적으로 학습합니다. 자세한 내용은 정답 데이터 세트 만들기를 참조하세요.
오디오 시간 최소 10시간 분량의 검증 데이터로 구성된 별도의 데이터 세트(실사본의 해당 텍스트 스크립트가 있는 오디오). 예상 형식과 따라야 할 정답 규칙에 대한 자세한 내용은 데이터 준비 안내를 참고하세요.

학습을 완료하면 클릭 한 번으로 커스텀 Speech-to-Text 모델을 엔드포인트에 배포하고 Cloud Speech-to-Text V2 API를 통해 직접 추론 및 벤치마킹을 수행할 수 있습니다.

지원되는 모델, 언어, 리전

커스텀 Speech-to-Text 모델 학습은 다음과 같은 모델, 언어, 지역 조합을 지원합니다.

언어	BCP-47	기본 모델
독일어(독일)	de-DE	`latest_long`
영어(호주)	en-AU	`latest_long`
영어(영국)	en-GB	`latest_long`
영어(인도)	en-IN	`latest_long`
영어(미국)	en-US	`latest_long`
스페인어(미국)	es-US	`latest_long`
스페인어(스페인)	es-ES	`latest_long`
프랑스어(캐나다)	fr-CA	`latest_long`
프랑스어(프랑스)	fr-FR	`latest_long`
힌디어(인도)	hi-IN	`latest_long`
이탈리아어(이탈리아)	it-IT	`latest_long`
일본어(일본)	ja-JP	`latest_long`
한국어(대한민국)	ko-KR	`latest_long`
네덜란드어(네덜란드)	nl-NL	`latest_long`
포르투갈어(브라질)	pt-BR	`latest_long`
포르투갈어(포르투갈)	pt-PT	`latest_long`

또한 데이터 상주 요구사항을 준수하기 위해 Google은 여러 리전에 학습 및 배포 하드웨어를 제공합니다. 전용 하드웨어는 다음과 같은 모델 및 지역 조합에서 지원됩니다.

기본 모델	Google Cloud Region	지원되는 태스크
`latest_long`	`us-east1`	학습 및 배포
`latest_long`	`europe-west4`	학습 및 배포

할당량

커스텀 Speech-to-Text 모델 학습의 경우 각 Google Cloud 프로젝트에는 여러 학습 작업을 동시에 실행하기에 충분한 기본 할당량이 있어야 하며 추가 조정 없이 대부분의 프로젝트 요구사항을 충족하도록 설계되었습니다. 하지만 더 많은 동시 학습 작업을 실행해야 하거나 더 광범위한 라벨링 또는 컴퓨팅 리소스가 필요한 경우 추가 할당량을 요청하세요.

엔드포인트 배포를 제공하는 커스텀 Speech-to-Text 모델의 경우 각 엔드포인트의 이론적 한도는 초당 쿼리 수(QPS) 20개입니다. 더 높은 처리량이 필요한 경우 추가 제공 할당량을 요청하세요.

가격 책정

커스텀 Speech-to-Text 모델을 만들고 사용하는 데는 특정 비용이 발생하며, 이 비용은 주로 모델의 학습 및 후속 배포 중에 사용된 리소스를 기반으로 합니다. 구체적으로 일반적인 모델 수명 주기에서 맞춤 Speech-to-Text 모델에는 다음과 같은 비용이 발생합니다.

학습: 모델 학습 시간 수에 따라 요금이 청구됩니다. 이 시간은 학습 데이터 세트의 오디오 시간에 비례합니다. 일반적으로 학습에는 데이터 세트의 오디오 시간의 10분의 1이 사용됩니다.
배포: 모델이 엔드포인트에 배포된 시간당 요금이 청구됩니다.
추론: 일반 Speech-to-Text 결제에 의거하여 스크립트 작성을 위해 스트리밍된 오디오 초 수에 따라 요금이 청구됩니다.

효과적인 예산 책정과 리소스 할당을 위해서는 이러한 비용을 이해하는 것이 중요합니다. 자세한 내용은 커스텀 Speech-to-Text 모델 섹션의 Cloud Speech-to-Text 가격 책정을 참조하세요.

다음 단계

애플리케이션에서 커스텀 음성 모델을 활용하려면 다음 리소스를 따르세요.