학습 데이터 요구사항

커스텀 음성을 학습하는 것은 흥미로운 경험이 될 수 있습니다. 결과 모델이 비전을 준수하도록 하려면 다음 안내를 따르고 음성 파트너 또는 디렉터와 협력하는 것을 고려해 보세요.

일부 스타일 변형은 목소리에 생동감을 불어넣는 데 도움이 되지만 녹음 전체에서 일관성 있는 성능이 중요합니다. 에너지, 캐릭터, 프로젝트 수준 또는 보컬 프라이에 큰 변화(예: 피로로 인한)가 나타나는 녹음은 성우의 짧은 휴식 시간 후에 다시 녹음해야 합니다. 녹음된 모든 라인에 일관성을 유지하기 위해 디렉터와 배우에게 일치 참조 파일이 정기적으로 재생되어야 합니다.

스크립트

캐릭터 및 비즈니스 요구사항에 맞는 자체 스크립트를 사용하는 것이 좋습니다. 스크립트가 없는 경우 Gemini로 스크립트를 빌드하거나 각 지원되는 언어로 제공되는 Google 스크립트를 사용할 수 있습니다. de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR

자체 스크립트를 빌드하는 경우 형식이 다음과 비슷한 패턴을 따라야 합니다.

  • 개별 녹음 500개(모든 녹음 파일의 총합은 20~30분 정도여야 함)
  • 한 줄에 약 1개씩 녹음

데이터 형식 지정

오디오를 스크립트에 적합하게 정렬하려면 csv 파일을 제공해야 합니다. CSV 파일 예시는 다음과 같습니다.

  • 각 녹음에는 스크립트의 한 줄만 포함해야 하며 WAV 파일로 저장됩니다. 첫 번째 파일의 이름은 0001.wav로, 두 번째 파일의 이름은 0002.wav로 지정합니다.
  • 열 1: 헤더가 없습니다. 오디오 파일의 스크립트 줄입니다.
  • WAV 오디오 파일의 gsutil URI입니다. 예를 들면 gs://YOUR_BUCKET_NAME/0001.wav입니다.
  • 각 스크립트 줄에 해당하는 오디오 파일이 있고 빈 줄이 없도록 CSV를 오디오에 정확하게 정렬합니다.
  • 팁: 스크립트에 나온 항목만 포함합니다.
    • 줄 번호(5. Where are the rainbows?) 또는 구두로 표현되지 않은 코드는 추가하지 않습니다(The zip code is 08654The zero eight six five four.과 같은 형식이어야 합니다.)
    • 마지막 음성이 초기 스크립트와 다른 경우가 종종 있습니다. 최상의 품질을 위해 스크립트 자체를 복사하여 붙여넣는 대신 CSV를 최종 단어에 맞게 조정해야 합니다.
    • 공백으로 구분된 문자 시퀀스가 표시되는 경우 각 문자를 개별적으로 발음 optimize의 각 문자를 개별적으로 발음합니다.

녹음 권장사항

이상적인 녹화 요구사항은 다음과 같습니다. 이러한 요구사항을 충족하지 않아도 모델을 학습시킬 수 있지만 모델의 품질은 보장할 수 없습니다. 가장 중요하지만 일반적으로 간과되는 요구사항은 다음과 같습니다. * 표준 오디오 파일 형식(48kHz/24bit, WAV) 오디오는 더 높은 샘플링 레이트로 녹음될 수 있으며, 48kHz/24비트로 다운샘플링됩니다. 낮은 속도에서 오디오를 업샘플링하지 마세요. *대상 평균 음량은 -23 LUFS +- 2(ITU-R BS.1770-3)입니다.

녹음 사양

  • 표준 오디오 파일 형식(48kHz/24bit, WAV)이여야 합니다. 오디오는 더 높은 샘플링 레이트로 녹음될 수 있으며, 48kHz/24비트로 다운샘플링됩니다. 낮은 속도에서 오디오를 업샘플링하지 마세요.
  • 오디오는 손실되는 압축 없이 녹음되어야 합니다. WAV 헤더가 있는 LPCM(Linear PCM) 형식이 필요합니다. 모노 오디오를 제공합니다.
  • RT(반사 시간) 또는 감쇠 시간(룸 사운드)이 낮은 고품질의 전문 녹음 스튜디오여야 합니다.
    • RT가 가능한 한 낮은 수준으로 감소할 때까지 반사 표면에 음향 처리 폼이 적용되어 있어야 합니다.
  • 전문가용 대형 다이어프램 콘덴서 마이크(U87, TLM 193 또는 이에 상응하는 제품)여야 합니다.
  • 적절한 게인 스테이징과 마이크 배치가 있는 높은 신호 대 잡음비(SNR)여야 합니다.
  • 오디오 파일의 시작과 끝 부분에 짧은 무음(>100ms 및 <500ms)이 있어야 합니다. 디지털 무음을 추가하지 마세요(즉, 0의 시퀀스 추가).
  • 오디오는 이퀄라이제이션, 압축 또는 기타 DSP 없이 녹음되어야 합니다.
  • 배경음이나 채널 소음이 전혀 없는 깨끗한 녹음을 만들어야 합니다.
  • 피해야 할 특정 언어 아티팩트: 보컬 프라이/삐그덕 소리, 숨소리가 많은 음성, 문장 중간에 끊어지거나 부적절한 멈춤

일치 참조 파일

참조 녹음 또는 일치 파일은 녹음 프로젝트를 시작할 때 캡처한 파일입니다. 이러한 파일은 전체 녹음 프로젝트 도중에 사용되며 변경되면 안 됩니다. 이는 캐릭터, 볼륨, 에너지, 억양, 발화, 성조, 스펙트럼 속성 측면에서 성능의 증명 특성을 나타냅니다. 일치 파일은 모든 후속 녹음에 대한 참조로 사용됩니다. 이 파일은 녹음 세션 전체에서 신호 캡처를 보정하고 성능에 대한 안내와 일관성을 제공하는 데 사용됩니다.

일치 참조 파일 만들기

일치 파일 녹음 과정은 디렉터(원하는 성능 유형을 명시) 및 레코딩 엔지니어(일치 파일에 적절한 오디오 사양 수준이 캡처되었는지 확인)가 협력하여 수행됩니다. 녹음된 모든 오디오는 일치 파일의 특성을 준수해야 합니다. 이러한 파일을 사용하여 녹음 전반에서 다음 매개변수의 일관성을 보장합니다.

  • 캐릭터 및 스타일의 연속성
  • 성능의 기본적인 음 높이 또는 어조
  • 말하는 속도
  • 볼륨

다음 단계

이제 데이터가 준비되었으므로 커스텀 음성 모델을 만들 수 있습니다.