원하는 커스텀 음성을 표현하는 성우를 찾아 작업하는 것이 좋습니다. 학습 데이터로 사용할 약 10초 분량의 오디오를 성우와 함께 녹음해야 합니다. 또한 성우의 동의 문구도 녹음해야 합니다. 클론된 모델의 학습 및 제공에는 몇 분밖에 걸리지 않습니다. GA 이전 기능은 중요 버그에 대한 SLA 지원이 없습니다.
1단계: 클론을 수행할 학습 데이터 만들기
동의 문구 녹음: 음성 클론에 대한 법적 및 윤리적 가이드라인을 준수하려면 해당 언어로 필요한 동의 문구를 LINEAR16 인코딩 및 24kHz 샘플링 레이트로 모노 WAV 파일로 녹음합니다. (저는 이 음성의 소유자이며, Google이 이 음성을 사용하여 합성 음성 모델을 만드는 데 동의합니다.)
초기 오디오 녹음: 컴퓨터 마이크를 사용하여 10초 분량의 오디오를 24kHz 샘플링 레이트의 LINEAR16 인코딩 모노 WAV 파일로 녹음합니다. 녹음 중에는 배경 소음이 없어야 합니다.
오디오 파일 저장: 녹음된 오디오 파일을 지정된 Cloud Storage 위치에 저장합니다.