모델 학습

원하는 커스텀 음성을 표현하는 성우를 찾아 작업하는 것이 좋습니다. 학습 데이터로 사용할 약 10초 분량의 오디오를 성우와 함께 녹음해야 합니다. 또한 성우의 동의 문구도 녹음해야 합니다. 클론된 모델의 학습 및 제공에는 몇 분밖에 걸리지 않습니다. GA 이전 기능은 중요 버그에 대한 SLA 지원이 없습니다.

1단계: 클론을 수행할 학습 데이터 만들기

  1. 동의 문구 녹음: 음성 클론에 대한 법적 및 윤리적 가이드라인을 준수하려면 해당 언어로 필요한 동의 문구를 녹음합니다. 저는 이 음성의 소유자이며, Google이 이 음성을 사용하여 합성 음성 모델을 만드는 데 동의합니다.라고 명시해야 합니다.
  2. 초기 오디오 녹음: 컴퓨터 마이크를 사용하여 10초 분량의 오디오를 녹음합니다. 녹음 중에는 배경 소음이 없어야 합니다.
  3. 오디오 파일 저장: 녹음된 오디오 파일을 지정된 Cloud Storage 위치에 저장합니다.

2단계: 클론된 모델 만들기

Text-to-Speech 콘솔을 통해 클론 프로젝트를 만들 수 있습니다.

  1. Text-to-Speech 콘솔 내에서 합성 페이지로 이동합니다.

  2. 음성으로 합성할 텍스트를 입력하고 타겟 언어 코드(en-US만 적용됨)를 선택합니다.

  3. 커스텀 음성 체크박스를 선택하고 키 생성을 클릭합니다.

  4. 표시되는 서브 태스크에서 모든 필수 필드를 작성합니다.

  5. 음성 클론 키가 이제 합성 양식에 표시됩니다.

    • 나중에 "키 생성" 프로세스를 건너뛰기 위해 이 키를 저장할 수 있습니다.

  6. 고급 설정 섹션으로 전환해서 샘플링 레이트(헤르츠) 필드에 24000을 입력한 후 합성을 클릭합니다.

현재는 24kHz로만 클론된 음성을 합성합니다.

오디오를 다운로드하거나 직접 재생하여 소리를 들어볼 수 있습니다.