이 페이지는 Cloud Translation API를 통해 번역되었습니다.

모델 학습

원하는 커스텀 음성을 표현하는 성우를 찾아 작업하는 것이 좋습니다. 학습 데이터로 사용할 약 10초 분량의 오디오를 성우와 함께 녹음해야 합니다. 또한 성우의 동의 문구도 녹음해야 합니다. 클론된 모델의 학습 및 제공에는 몇 분밖에 걸리지 않습니다. GA 이전 기능은 중요 버그에 대한 SLA 지원이 없습니다.

1단계: 클론을 수행할 학습 데이터 만들기

동의 문구 녹음: 음성 클론에 대한 법적 및 윤리적 가이드라인을 준수하려면 해당 언어로 필요한 동의 문구를 LINEAR16 인코딩 및 24kHz 샘플링 레이트로 모노 WAV 파일로 녹음합니다. (저는 이 음성의 소유자이며, Google이 이 음성을 사용하여 합성 음성 모델을 만드는 데 동의합니다.)
초기 오디오 녹음: 컴퓨터 마이크를 사용하여 10초 분량의 오디오를 24kHz 샘플링 레이트의 LINEAR16 인코딩 모노 WAV 파일로 녹음합니다. 녹음 중에는 배경 소음이 없어야 합니다.
오디오 파일 저장: 녹음된 오디오 파일을 지정된 Cloud Storage 위치에 저장합니다.

2단계: 클론된 모델 만들기

Text-to-Speech 콘솔을 통해 클론 프로젝트를 만들 수 있습니다.

Text-to-Speech 콘솔 내에서 합성 페이지로 이동합니다.
음성으로 합성할 텍스트를 입력하고 타겟 언어 코드(en-US만 적용됨)를 선택합니다.
커스텀 음성 체크박스를 선택하고 키 생성을 클릭합니다.
표시되는 서브 태스크에서 모든 필수 필드를 작성합니다.
음성 클론 키가 이제 합성 양식에 표시됩니다.
- 나중에 "키 생성" 프로세스를 건너뛰기 위해 이 키를 저장할 수 있습니다.
- 참고: Google은 키를 보관하지 않습니다. Google 프로젝트에 액세스 권한이 있는 누구나 키를 사용해서 클론된 음성으로 합성어를 생성할 수 있으므로 키를 안전하게 보관하세요.
고급 설정 섹션으로 전환해서 샘플링 레이트(헤르츠) 필드에 24000을 입력한 후 합성을 클릭합니다.

현재는 24kHz로만 클론된 음성을 합성합니다.

오디오를 다운로드하거나 직접 재생하여 소리를 들어볼 수 있습니다.