Custom Voice(베타) 개요

Cloud Text-to-Speech API는 이제 Custom Voice(베타)를 제공합니다. 이 기능을 사용하면 자체 스튜디오 품질 오디오 녹음으로 고유한 음성을 만들어 커스텀 음성 모델을 학습시킬 수 있습니다. 커스텀 음성을 사용하여 Cloud Text-to-Speech API로 오디오를 합성할 수 있습니다. 현재는 미국 영어(en-US)만 지원됩니다.

Custom Voice 기능의 액세스를 요청하려면 이 양식을 작성하세요.

사용자 제공 학습 오디오 데이터

Custom Voice는 제공된 오디오 데이터와 최대한 유사하게 작동하는 TTS(Text-to-Speech) 모델을 제공합니다. 사용 사례가 승인되면 Google에서 음성 녹음 스크립트를 보냅니다. 원하는 커스텀 음성을 표현하는 성우를 찾아 작업하는 것이 좋습니다. 학습 데이터로 사용하기 위해 성우와 함께 스튜디오 품질의 오디오를 녹음해야 합니다. 학습 데이터가 Google의 내부 인증 및 유효성 검사를 통과하지 못한 경우 식별된 문제를 해결한 후 데이터를 다시 녹음하거나 다시 제출해야 할 수 있습니다.

모델 학습

Google에서 커스텀 음성 모델을 학습시키고 평가하는 데는 몇 주 정도 걸립니다. 베타 기능에 대한 중요한 버그에는 SLA가 지원되지 않습니다.

평가 및 사용자 승인 테스트

Google은 학습된 모델의 초기 평가를 실시합니다. 내부 품질 기준을 통과하면 커스텀 모델을 사용하여 녹음된 오프라인 오디오 샘플이 전송됩니다. 사용자 승인 테스트 과정에 따라 오디오 결과를 평가하고 모델을 공식적으로 승인합니다.