음성 애플리케이션용 커스텀 음성 모델 만들기

Text-to-Speech UI 내에서 고유한 커스텀 음성 모델을 만들 수 있습니다.

기본 요건

Text-to-Speech API를 사용 설정합니다.
학습 데이터 요구사항에 따라 오디오를 녹음합니다.
Cloud Storage 버킷 만들기
학습 데이터 요구사항(0001.wav, 0002.wav... 0200.wav 등)에서 지정한 형식으로 오디오 파일을 새 버킷에 업로드합니다.

새 커스텀 음성 모델 학습

Text-to-Speech UI에서 커스텀 음성 탭을 엽니다.
화면 상단에서 만들기를 클릭합니다.
음성 모델의 이름을 지정합니다.
지원되는 언어 드롭다운에서 언어를 지정합니다.
기본 요건 4단계의 버킷 구성에서 적절한 CSV 파일을 선택합니다.
성우의 동의 문구를 업로드합니다. 예시: "저는 이 음성의 소유자이며, Google이 이 음성을 사용하여 합성 음성 모델을 만드는 데 동의합니다."
만들기를 클릭하여 모델 만들기를 시작합니다. 모델을 만드는 데 최대 3일이 걸릴 수 있습니다.
학습 작업 상태를 보려면 오른쪽 상단 탐색 헤더에서 콘솔 알림을 확인합니다.

다음 단계

모델 학습이 완료되면 샘플 출력 오디오 파일이 콘솔에 제공됩니다. 이 파일을 사용하여 모델 품질에 대한 초기 평가를 수행할 수 있습니다. 요구사항을 충족하는 경우 영업팀에 모델 배포 지원을 요청하세요. 배포에 2~3주가 걸리므로, 신속하게 평가하고 일찍 소통하는 것이 좋습니다.