커스텀 Speech-to-Text 모델을 사용하면 특정 요구사항에 맞게 음성 인식 모델을 미세 조정할 수 있습니다. 이 서비스는 도메인별 오디오 및 텍스트 데이터를 사용하여 다양한 환경과 사용 사례에서 음성 인식 서비스의 정확성과 관련성을 개선하도록 설계되었습니다.
Google Cloud 콘솔 및 API에서 액세스할 수 있는 커스텀 Speech-to-Text 모델을 사용하면 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성 없이 오디오 상태를 대표하는 오디오 데이터만 학습 세트로 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.
맞춤 음성 텍스트 변환 모델을 만들고 사용하려면 다음 단계를 따르세요.
- Cloud Storage 버킷에서 학습 데이터를 준비하고 업로드합니다.
- 새 커스텀 모델 학습
- 엔드포인트를 사용하여 커스텀 모델을 배포하고 관리합니다.
- 애플리케이션에서 커스텀 모델을 사용하고 평가합니다.
기본 원리
커스텀 Speech-to-Text 모델을 사용하여 기본 스크립트 작성 모델을 보강함으로써 스크립트 작성 인식을 개선할 수 있습니다. 사이렌, 음악, 과도한 배경 소음 등 일부 오디오 환경에서는 음향 문제가 발생할 수 있습니다. 특정 억양 또는 특이한 어휘(예: 제품 이름)도 문제를 일으킬 수 있습니다.
모든 커스텀 Speech-to-Text 모델은 일반적으로 사용되는 언어의 독점 데이터로 사전 학습된 Conformer 기반 아키텍처를 기반 모델로 사용합니다. 학습 프로세스 중에는 원래 가중치의 상당 부분을 조정하여 애플리케이션에 특정한 분야별 어휘 및 오디오 조건의 인식을 개선하기 위해 기본 모델이 미세 조정됩니다.
커스텀 Speech-to-Text 모델을 효과적으로 학습하려면 다음을 제공해야 합니다.
- 오디오 시간 최소 100시간의 학습 데이터(오디오만 또는 실사본의 해당 텍스트 스크립트가 있는 오디오). 이 데이터는 초기 학습 단계에서 중요하므로 모델이 음성 패턴과 어휘의 미묘한 차이를 포괄적으로 학습합니다. 자세한 내용은 정답 데이터 세트 만들기를 참조하세요.
- 오디오 시간 최소 10시간 분량의 검증 데이터로 구성된 별도의 데이터 세트(실사본의 해당 텍스트 스크립트가 있는 오디오). 예상되는 형식과 따라야 할 실측값 관례에 대한 자세한 내용은 데이터 준비 안내를 참고하세요.
학습이 완료되면 클릭 한 번으로 엔드포인트에 커스텀 Speech-to-Text 모델을 배포하고 Cloud Speech-to-Text V2 API를 통해 직접 사용하여 추론 및 벤치마킹을 수행할 수 있습니다.
지원되는 모델, 언어, 지역
커스텀 Speech-to-Text 모델 학습은 다음과 같은 모델, 언어, 지역 조합을 지원합니다.
언어 | BCP-47 | 기본 모델 |
---|---|---|
독일어(독일) |
de-DE |
|
영어(오스트레일리아) |
en-AU |
|
영어(영국) |
en-GB |
|
영어(인도) |
en-IN |
|
영어(미국) |
en-US |
|
스페인어(미국) |
es-US |
|
스페인어(스페인) |
es-ES |
|
French (Canada) |
fr-CA |
|
프랑스어(프랑스) |
fr-FR |
|
힌디어(인도) |
hi-IN |
|
이탈리아어(이탈리아) |
it-IT |
|
일본어(일본) |
ja-JP |
|
한국어(대한민국) |
ko-KR |
|
네덜란드어(네덜란드) |
nl-NL |
|
포르투갈어(브라질) |
pt-BR |
|
포르투갈어(포르투갈) |
pt-PT |
|
또한 데이터 상주 요구사항을 준수하기 위해 Google은 여러 리전에 학습 및 배포 하드웨어를 제공합니다. 전용 하드웨어는 다음과 같은 모델 및 리전 조합에서 지원됩니다.
기본 모델 | Google Cloud 지역 | 지원되는 태스크 |
---|---|---|
|
|
학습 및 배포 |
|
|
학습 및 배포 |
할당량
맞춤 음성 텍스트 변환 모델 학습의 경우 각 Google Cloud 프로젝트에는 여러 학습 작업을 동시에 실행하기에 충분한 기본 할당량이 있어야 하며 추가 조정 없이 대부분의 프로젝트 요구사항을 충족하도록 설계되었습니다. 하지만 더 많은 수의 동시 학습 작업을 실행해야 하거나 더 광범위한 라벨링 또는 컴퓨팅 리소스가 필요한 경우 추가 할당량을 요청하세요.
엔드포인트 배포를 제공하는 커스텀 Speech-to-Text 모델의 경우 각 엔드포인트의 이론적 한도는 초당 쿼리 수(QPS) 20개입니다. 더 높은 처리량이 필요한 경우 추가 제공 할당량을 요청하세요.
가격 책정
커스텀 Speech-to-Text 모델을 만들고 사용하면 주로 모델의 학습 및 후속 배포 중에 사용되는 리소스에 따라 특정 비용이 발생합니다. 구체적으로 커스텀 Speech-to-Text 모델은 일반적인 모델 수명 주기에서 다음과 같은 비용이 발생합니다.
- 학습: 모델 학습 시간에 따라 요금이 청구됩니다. 이 시간은 학습 데이터 세트의 오디오 시간에 비례합니다. 일반적으로 학습에는 데이터 세트의 오디오 시간의 10분의 1이 사용됩니다.
- 배포: 모델이 엔드포인트에 배포되는 시간당 요금이 청구됩니다.
- 추론: 일반 Speech-to-Text 결제에 따라 스크립트 작성을 위해 스트리밍된 오디오의 초 수가 청구됩니다.
효과적인 예산 책정과 리소스 할당을 위해서는 이러한 비용을 이해하는 것이 중요합니다. 자세한 내용은 커스텀 Speech-to-Text 모델 섹션의 Cloud Speech-to-Text 가격 책정을 참조하세요.
다음 단계
애플리케이션에서 커스텀 음성 모델을 활용하려면 다음 리소스를 따르세요.