개요
Cloud Text-to-Speech API는 이제 Custom Voice를 제공합니다. 이 기능을 사용하면 자체 스튜디오 품질 오디오 녹음으로 고유한 음성을 만들어 커스텀 음성 모델을 학습시킬 수 있습니다. 커스텀 음성을 사용하여 Cloud Text-to-Speech API로 오디오를 합성할 수 있습니다.
사용자 제공 학습 오디오 데이터
Custom Voice는 제공된 오디오 데이터와 최대한 유사하게 작동하는 TTS(Text-to-Speech) 모델을 제공합니다. 사용 사례가 승인되면 Google에서 음성 녹음 스크립트를 보냅니다. 원하는 커스텀 음성을 표현하는 성우를 선택하여 채용하는 것이 좋습니다. 학습 데이터로 사용하기 위해 성우와 함께 스튜디오 품질의 오디오를 녹음해야 합니다(자세한 내용은 학습 데이터 요구사항 페이지 참조). 학습 데이터가 Google의 내부 품질 검사를 통과하지 못한 경우 식별된 문제를 해결한 후 데이터를 다시 녹음하거나 다시 제출해야 할 수 있습니다.
모델 학습
Google에서 커스텀 음성 모델을 학습시키는 데는 몇 주 정도 걸립니다.
배포
학습이 완료되면 Google이 커스텀 음성 모델을 선택한 프로젝트에 배포합니다.
다음 단계
- 빠른 시작을 사용하여 Custom Voice 기능 구현