커스텀 Speech-to-Text 모델을 사용하면 특정 요구에 맞게 음성 인식 모델을 미세 조정할 수 있습니다. 이 서비스는 도메인별 오디오 및 텍스트 데이터를 사용하여 다양한 환경과 사용 사례에서 음성 인식 서비스의 정확성과 관련성을 향상하도록 설계되었습니다.
Google Cloud 콘솔 및 API에서 액세스할 수 있는 커스텀 Speech-to-Text 모델을 사용하면 코드 없는 통합 환경에서 전용 음성 모델을 학습, 평가, 배포할 수 있습니다. 학습의 경우 참조 스크립트 작성 없이 오디오 조건을 대표하는 오디오 데이터만 학습 세트로 제공할 수 있습니다. 하지만 평가 데이터 세트의 일부로 오디오 데이터와 참조 스크립트 작성을 제공해야 합니다.
커스텀 Speech-to-Text 모델을 만들고 사용하려면 다음 단계를 따르세요.
Cloud Storage 버킷에서 학습 데이터를 준비하고 업로드합니다.
새 커스텀 모델을 학습시킵니다.
엔드포인트를 사용하여 커스텀 모델을 배포하고 관리합니다.
애플리케이션에서 커스텀 모델을 사용하고 평가합니다.
기본 원리
커스텀 Speech-to-Text 모델을 사용하여 기본 스크립트 작성 모델을 보강함으로써 스크립트 작성 인식을 개선할 수 있습니다. 사이렌, 음악, 과도한 배경 소음 등 일부 오디오 조건은 음향 문제를 일으킬 수 있습니다. 특정 억양 또는 특이한 어휘(예: 제품 이름)도 문제를 일으킬 수 있습니다.
모든 커스텀 Speech-to-Text 모델은 일반적으로 사용되는 언어의 독점 데이터로 사전 학습된 Conformer 기반 아키텍처를 기반 모델로 사용합니다. 학습 프로세스 중에는 원래 가중치의 상당 부분을 조정하여 애플리케이션에 특정한 분야별 어휘 및 오디오 조건의 인식을 개선하기 위해 기본 모델이 미세 조정됩니다.
커스텀 Speech-to-Text 모델을 효과적으로 학습하려면 다음을 제공해야 합니다.
오디오 시간 최소 100시간의 학습 데이터(오디오만 또는 실사본의 해당 텍스트 스크립트가 있는 오디오). 이 데이터는 초기 학습 단계에서 중요하므로 모델이 음성 패턴과 어휘의 미묘한 차이를 포괄적으로 학습합니다. 자세한 내용은 정답 데이터 세트 만들기를 참조하세요.
오디오 시간 최소 10시간 분량의 검증 데이터로 구성된 별도의 데이터 세트(실사본의 해당 텍스트 스크립트가 있는 오디오). 예상 형식과 따라야 할 정답 규칙에 대한 자세한 내용은 데이터 준비 안내를 참고하세요.
학습을 완료하면 클릭 한 번으로 커스텀 Speech-to-Text 모델을 엔드포인트에 배포하고 Cloud Speech-to-Text V2 API를 통해 직접 추론 및 벤치마킹을 수행할 수 있습니다.
지원되는 모델, 언어, 리전
커스텀 Speech-to-Text 모델 학습은 다음과 같은 모델, 언어, 지역 조합을 지원합니다.
언어
BCP-47
기본 모델
독일어(독일)
de-DE
latest_long
영어(호주)
en-AU
latest_long
영어(영국)
en-GB
latest_long
영어(인도)
en-IN
latest_long
영어(미국)
en-US
latest_long
스페인어(미국)
es-US
latest_long
스페인어(스페인)
es-ES
latest_long
프랑스어(캐나다)
fr-CA
latest_long
프랑스어(프랑스)
fr-FR
latest_long
힌디어(인도)
hi-IN
latest_long
이탈리아어(이탈리아)
it-IT
latest_long
일본어(일본)
ja-JP
latest_long
한국어(대한민국)
ko-KR
latest_long
네덜란드어(네덜란드)
nl-NL
latest_long
포르투갈어(브라질)
pt-BR
latest_long
포르투갈어(포르투갈)
pt-PT
latest_long
또한 데이터 상주 요구사항을 준수하기 위해 Google은 여러 리전에 학습 및 배포 하드웨어를 제공합니다. 전용 하드웨어는 다음과 같은 모델 및 리전 조합에서 지원됩니다.
기본 모델
Google Cloud Region
지원되는 태스크
latest_long
us-east1
학습 및 배포
latest_long
europe-west4
학습 및 배포
할당량
커스텀 Speech-to-Text 모델 학습의 경우 각 Google Cloud 프로젝트에는 여러 학습 작업을 동시에 실행하기에 충분한 기본 할당량이 있어야 하며 추가 조정 없이 대부분의 프로젝트 요구사항을 충족하도록 설계되었습니다. 하지만 더 많은 수의 동시 학습 작업을 실행해야 하거나 더 광범위한 라벨링 또는 컴퓨팅 리소스가 필요한 경우 추가 할당량을 요청하세요.
엔드포인트 배포를 제공하는 커스텀 Speech-to-Text 모델의 경우 각 엔드포인트의 이론적 한도는 초당 쿼리 수(QPS) 20개입니다. 더 높은 처리량이 필요한 경우 추가 제공 할당량을 요청하세요.
가격 책정
커스텀 Speech-to-Text 모델을 만들고 사용하면 주로 모델의 학습 및 후속 배포 중에 사용되는 리소스에 따라 특정 비용이 발생합니다. 구체적으로 커스텀 Speech-to-Text 모델은 일반적인 모델 수명 주기에서 다음과 같은 비용이 발생합니다.
학습: 모델 학습 시간에 따라 요금이 청구됩니다. 이 시간은 학습 데이터 세트의 오디오 시간에 비례합니다. 일반적으로 학습에는 데이터 세트의 오디오 시간의 10분의 1이 사용됩니다.
배포: 모델이 엔드포인트에 배포된 시간당 요금이 청구됩니다.
추론: 일반 Speech-to-Text 결제에 의거하여 스크립트 작성을 위해 스트리밍된 오디오 초 수에 따라 요금이 청구됩니다.
효과적인 예산 책정과 리소스 할당을 위해서는 이러한 비용을 이해하는 것이 중요합니다. 자세한 내용은 커스텀 Speech-to-Text 모델 섹션의 Cloud Speech-to-Text 가격 책정을 참조하세요.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["이해하기 어려움","hardToUnderstand","thumb-down"],["잘못된 정보 또는 샘플 코드","incorrectInformationOrSampleCode","thumb-down"],["필요한 정보/샘플이 없음","missingTheInformationSamplesINeed","thumb-down"],["번역 문제","translationIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2025-07-24(UTC)"],[],[],null,["# Overview of custom speech models\n\n| **Preview**\n|\n|\n| This feature is subject to the \"Pre-GA Offerings Terms\" in the General Service Terms section\n| of the [Service Specific Terms](/terms/service-terms#1).\n|\n| Pre-GA features are available \"as is\" and might have limited support.\n|\n| For more information, see the\n| [launch stage descriptions](/products#product-launch-stages).\n\nCustom Speech-to-Text models help you fine-tune speech recognition models to your specific needs. This service is designed to enhance the accuracy and relevance of speech recognition service in diverse environments and use cases, using your domain-specific audio and text data.\n\nAccessible in both our Google Cloud console and API, Custom Speech-to-Text models allow to train, evaluate and deploy a dedicated speech model in a no-code integrated environment. For training you can provide audio data only that are representative of your audio conditions, without reference transcriptions as a training set. However, you need to provide audio data and their reference transcriptions as part of your evaluation set.\n\nCreating and using a custom Speech-to-Text model involves the following steps:\n\n1. Prepare and upload training data in a Cloud Storage bucket.\n2. Train a new custom model.\n3. Deploy and manage your custom model using endpoints.\n4. Use and evaluate your custom model in your application.\n\nHow does it work\n----------------\n\nYou can use Custom Speech-to-Text models to augment a base transcription model to improve transcription recognition. Some audio conditions, including sirens, music, and excessive background noise can pose acoustic challenges. Certain accents or unusual vocabulary, such product names can as well.\n\nEvery Custom Speech-to-Text model uses pre-trained, Conformer-based architecture as a base model trained with proprietary data of commonly spoken language. During the training process, the base model is fine-tuned by adapting a significant percentage of the original weights to improve recognition of domain-specific vocabulary and audio conditions specific to your application.\n\nFor the effective training of a Custom Speech-to-Text model, you must provide:\n\n- Minimum 100 audio-hours of training data, either audio-only or audio with the corresponding text transcript as ground-truth. This data is crucial for the initial training phase, so the model comprehensively learns the nuances of the speech patterns and vocabulary. For details, see [Create a ground-truth dataset](/speech-to-text/v2/docs/custom-speech-models/prepare-data#ground-truth_annotation_guidelines).\n- A separate dataset of at least 10 audio-hours of validation data, with the corresponding text transcript as ground-truth. You can learn more about the expected format and ground-truth conventions to be followed in our [data preparation instructions](/speech-to-text/v2/docs/custom-speech-models/prepare-data).\n\nFollowing a successful training, you can deploy a Custom Speech-to-Text model in an endpoint with one click, and use it directly through the Cloud Speech-to-Text V2 API for inference and benchmarking.\n\nSupported models, languages and regions\n---------------------------------------\n\nCustom Speech-to-Text models support the following combinations of models and languages and locales for training:\n\nAdditionally, to comply with your data residency requirements we offer training and deployment hardware in different regions. Dedicated hardware is supported in the following combinations of models and regions:\n\nQuota\n-----\n\nFor Custom Speech-to-Text model training, each Google Cloud project should have enough default quota to run multiple training jobs concurrently and is intended to meet the needs of most projects without additional adjustments. However if you need to run a higher number of concurrent training jobs or require more extensive labeling or compute resources, then request additional quota.\n\nFor a Custom Speech-to-Text model serving an endpoint deployment, each endpoint has a theoretical limit of [20 queries per second (QPS)](/speech-to-text/quotas). If higher throughput is required, request additional serving quota.\n\nPricing\n-------\n\nCreating and using a Custom Speech-to-Text model involves certain costs which are primarily based on the resources used during the training and subsequent deployment of the model. Specifically, the Custom Speech-to-Text model will incur the following costs in a typical model lifecycle:\n\n- **Training**: You will be charged for the number of model-training hours. This time is proportional to the amount of audio-hours in the training dataset. As a rule, training takes a tenth of the number of audio-hours in the dataset.\n- **Deployment**: You will be charged for each hour that a model is deployed on an endpoint.\n- **Inference**: You will be charged for the number of streamed seconds of audio for transcription, in alignment with the general Speech-to-Text billing.\n\nUnderstanding these costs is crucial for effective budgeting and resource allocation. For more information, in the Custom Speech-to-Text models section, see [Cloud Speech-to-Text pricing](https://cloud.google.com/speech-to-text/pricing).\n\nWhat's next\n-----------\n\nFollow the resources to take advantage of custom speech models in your application:\n\n- [Prepare your training data](/speech-to-text/v2/docs/custom-speech-models/prepare-data)\n- [Train and manage your custom models](/speech-to-text/v2/docs/custom-speech-models/train-model)\n- [Deploy and manage model endpoints](/speech-to-text/v2/docs/custom-speech-models/deploy-model)\n- [Use your custom models](/speech-to-text/v2/docs/custom-speech-models/use-model)\n- [Evaluate your custom models](/speech-to-text/v2/docs/custom-speech-models/evaluate-model)"]]