학습 데이터 요구사항

커스텀 음성을 학습하는 것은 흥미로운 경험이 될 수 있습니다. 결과 모델이 내 비전을 준수하도록 하려면 이 안내를 따르고 음성 파트너 또는 디렉터와 협력하는 것이 좋습니다.

일부 스타일 변형은 목소리에 생동감을 불어넣는 데 도움이 되지만 녹음 전체에서 일관성 있는 성능이 중요합니다. 에너지, 캐릭터, 프로젝트 수준 또는 보컬 프라이에 큰 변화(예: 피로로 인한)가 나타나는 녹음은 성우의 짧은 휴식 시간 후에 다시 녹음해야 합니다. 녹음된 모든 라인에 일관성을 유지하기 위해 디렉터와 배우에게 일치 참조 파일이 정기적으로 재생되어야 합니다.

스크립트

자체 스크립트를 빌드하는 경우 형식은 다음과 유사한 패턴을 따라야 합니다.

개별 녹음 500개(모든 녹음 파일의 총합은 20~30분 정도여야 함)
한 줄에 대략 1개의 녹음 파일

데이터 형식 지정

오디오를 스크립트에 올바르게 정렬하는 데 도움이 되는 csv 파일을 제공해야 합니다. 다음은 CSV 파일 예시입니다.

각 녹음에는 스크립트의 한 줄만 포함해야 하며 WAV 파일로 저장됩니다. 첫 번째 파일의 이름은 0001.wav로, 두 번째 파일의 이름은 0002.wav로 지정합니다.
열 1: 헤더가 없습니다. 오디오 파일의 스크립트 줄입니다.
WAV 오디오 파일의 gcloud storage URI입니다. 예를 들면 gs://YOUR_BUCKET_NAME/0001.wav입니다.
각 스크립트 줄에 해당하는 오디오 파일이 있고 빈 줄이 없도록 CSV를 오디오에 정확하게 정렬합니다.
팁: 스크립트에 나온 항목만 포함합니다.
- 줄 번호(5. Where are the rainbows?) 또는 구두로 표현되지 않은 코드는 추가하지 않습니다(The zip code is 08654는 The zero eight six five four.과 같은 형식이어야 합니다.)
- 최종 음성이 초기 스크립트와 다른 경우가 많습니다. 최상의 품질을 얻으려면 스크립트 자체를 복사하여 붙여넣는 대신 CSV를 최종 음성으로 조정합니다.
- 공백으로 구분된 문자 시퀀스가 표시되는 경우 각 문자를 개별적으로 발음 optimize의 각 문자를 개별적으로 발음합니다.

녹음 권장사항

이상적인 녹화 요구사항은 다음과 같습니다. 이러한 요구사항을 충족하지 않고도 모델을 학습할 수는 있지만 모델의 품질을 보장할 수는 없습니다. 가장 중요하지만 일반적으로 간과되는 요구사항은 다음과 같습니다.

표준 오디오 파일 형식(48kHz/24bit, WAV)이여야 합니다. 오디오는 더 높은 샘플링 레이트로 녹음될 수 있으며, 48kHz/24비트로 다운샘플링됩니다. 낮은 속도에서 오디오를 업샘플링하지 마세요.
대상 평균 음량은 -23 LUFS +- 2(ITU-R BS.1770-3)입니다.

녹음 사양

표준 오디오 파일 형식(48kHz/24bit, WAV)이여야 합니다. 오디오는 더 높은 샘플링 레이트로 녹음될 수 있으며, 48kHz/24비트로 다운샘플링됩니다. 낮은 속도에서 오디오를 업샘플링하지 마세요.
오디오는 손실되는 압축 없이 녹음되어야 합니다. WAV 헤더가 있는 LPCM(Linear PCM) 형식이 필요합니다. 모노 오디오를 제공합니다.
RT(반사 시간) 또는 감쇠 시간(룸 사운드)이 낮은 고품질의 전문 녹음 스튜디오여야 합니다.
- RT가 가능한 한 낮은 수준으로 감소할 때까지 반사 표면에 음향 처리 폼이 적용되어 있어야 합니다.
전문가용 대형 다이어프램 콘덴서 마이크(U87, TLM 193 또는 이에 상응하는 제품)여야 합니다.
적절한 게인 스테이징과 마이크 배치가 있는 높은 신호 대 잡음비(SNR)여야 합니다.
오디오 파일의 시작과 끝 부분에 짧은 무음(>100ms 및 <500ms)이 있어야 합니다. 디지털 무음을 추가하지 마세요(즉, 0의 시퀀스 추가).
오디오는 이퀄라이제이션, 압축 또는 기타 DSP 없이 녹음되어야 합니다.
배경음이나 채널 소음이 전혀 없는 깨끗한 녹음을 만들어야 합니다.
피해야 할 특정 언어 아티팩트: 보컬 프라이/삐그덕 소리, 숨소리가 많은 음성, 문장 중간에 끊어지거나 부적절한 멈춤

일치 참조 파일

참조 녹음 또는 일치 파일은 녹음 프로젝트를 시작할 때 캡처한 파일입니다. 이러한 파일은 전체 녹음 프로젝트 도중에 사용되며 변경되면 안 됩니다. 이는 캐릭터, 볼륨, 에너지, 억양, 발화, 성조, 스펙트럼 속성 측면에서 성능의 증명 특성을 나타냅니다. 일치 파일은 모든 후속 녹음에 대한 참조로 사용됩니다. 이 파일은 녹음 세션 전체에서 신호 캡처를 보정하고 성능에 대한 안내와 일관성을 제공하는 데 사용됩니다.

일치 참조 파일 만들기

일치 파일 녹음 과정은 디렉터(원하는 성능 유형을 명시) 및 레코딩 엔지니어(일치 파일에 적절한 오디오 사양 수준이 캡처되었는지 확인)가 협력하여 수행됩니다. 녹음된 모든 오디오는 일치 파일의 특성을 준수해야 합니다. 이러한 파일을 사용하여 녹음 전반에서 다음 매개변수의 일관성을 보장합니다.

캐릭터 및 스타일의 연속성
성능의 기본적인 음 높이 또는 어조
말하는 속도
볼륨

다음 단계

이제 데이터가 준비되었으므로 커스텀 음성 모델을 생성할 수 있습니다.