Persyaratan data pelatihan

Melatih suara kustom bisa menjadi pengalaman yang menyenangkan. Untuk memastikan model yang dihasilkan sesuai dengan visi Anda, ikuti petunjuk ini dan pertimbangkan untuk bekerja sama dengan partner atau sutradara suara.

Meskipun beberapa variasi gaya membantu menghidupkan suara, konsistensi performa itu penting di sepanjang perekaman Anda. Setiap perekaman dengan perubahan signifikan dalam energi, persona, tingkat proyeksi, atau vocal fry (misalnya, karena kelelahan) harus diulang, mungkin setelah jeda singkat untuk pengisi suara. File referensi kecocokan harus diputar secara berkala untuk aktor dan sutradara, guna memastikan konsistensi di semua baris yang direkam.

Pembuatan skrip

Sebaiknya gunakan skrip Anda sendiri yang cocok dengan persona dan kebutuhan bisnis Anda. Jika tidak memiliki skrip, Anda dapat membuatnya dengan Gemini atau menggunakan skrip kami, yang disediakan dalam setiap bahasa yang didukung: de-DE | en-US | en-GB | es-US | es-ES | en-AU | fr-CA | fr-FR | it-IT | ja-JP | pt-BR

Jika Anda membuat skrip sendiri, formatnya harus mengikuti pola yang serupa:

  • 500 rekaman individual (Jumlah total semua file rekaman harus sekitar 20 hingga 30 menit.)
  • Sekitar satu rekaman per baris

Pemformatan data

Anda harus menyediakan file csv untuk membantu menyelaraskan audio dengan skrip dengan benar. Berikut adalah contoh file CSV.

  • Setiap perekaman hanya boleh menyertakan satu baris dari skrip yang disimpan sebagai file WAV. Beri nama file pertama 0001.wav, beri nama file kedua 0002.wav, dan seterusnya.
  • Kolom 1: Tidak ada header. Baris skrip dalam file audio.
  • URI penyimpanan gcloud file audio WAV. Contoh: gs://YOUR_BUCKET_NAME/0001.wav.
  • Sesuaikan CSV dengan audio secara tepat sehingga ada file audio yang sesuai untuk setiap baris transkrip dan tidak ada baris kosong.
  • Tips: Hanya sertakan apa yang diucapkan dalam transkripsi.
    • Jangan tambahkan nomor baris (5. Di mana ada pelangi?) atau kode yang tidak terverbalkan (Kode posnya 08654 harus diformat sebagai Kode posnya nol delapan enam lima empat.).
    • Sering kali kata-kata yang diucapkan pada akhir berbeda dari skrip awal. Untuk kualitas terbaik, pastikan untuk menyesuaikan CSV dengan kata yang diucapkan terakhir, bukan menyalin dan menempelkan skrip itu sendiri.
    • Jika Anda melihat urutan karakter yang dipisahkan dengan spasi, ucapkan setiap karakter satu per satu. Ucapkan setiap huruf dalam optimize satu per satu.

Rekomendasi perekaman

Berikut adalah persyaratan perekaman yang ideal. Meskipun model masih dapat dilatih tanpa memenuhi persyaratan ini, kami tidak dapat menjamin kualitas model. Persyaratan yang paling penting, dan sering diabaikan, adalah:

  • Format file audio standar (48 kHz/24 bit, WAV). Audio dapat direkam pada frekuensi sampling yang lebih tinggi dan penurunan sampel hingga 48 kHz/24 bit. Jangan meningkatkan sampel audio dari frekuensi yang lebih rendah.
  • Volume rata-rata target adalah -23 LUFS +- 2 (ITU-R BS.1770-3).

Spesifikasi perekaman

  • Format file audio standar (48 kHz/24 bit, WAV). Audio dapat direkam pada frekuensi sampling yang lebih tinggi dan penurunan sampel hingga 48 kHz/24 bit. Jangan meningkatkan sampel audio dari frekuensi yang lebih rendah.
  • Audio harus direkam tanpa kompresi lossy. Diperlukan format Linear PCM (LPCM) dengan header WAV. Berikan audio mono.
  • Studio perekaman profesional berkualitas tinggi dengan reflection time (RT) atau waktu peluruhan (suara ruangan) rendah.
    • Semua permukaan yang memantulkan suara harus dilapisi busa akustik hingga waktu RT turun hingga level serendah mungkin.
  • Mikrofon kondensor diafragma besar profesional (U87, TLM 193, atau yang sebanding).
  • Signal-to-noise ratio (SNR) yang tinggi, dengan staging dan penempatan mikrofon yang tepat.
  • File audio harus memiliki kesenyapan singkat di awal dan akhir (>100 md dan <500 md). Jangan tambahkan kesenyapan digital (yaitu, tambahkan urutan 0).
  • Audio harus direkam rata tanpa ekualisasi, kompresi, atau DSP lainnya.
  • Pastikan perekaman bersih, tanpa derau latar belakang atau saluran yang mengganggu.
  • Artefak linguistik tertentu yang harus dihindari: Suara serak/berderak, pengucapan yang terengah-engah, tersendat, atau jeda yang tidak tepat di tengah kalimat

File referensi kecocokan

Perekaman referensi, atau file kecocokan, adalah file yang diambil di awal project perekaman. File-file ini digunakan selama keseluruhan project perekaman dan tidak boleh berubah. File-file tersebut mewakili karakteristik khas performa dalam hal persona, volume, energi, ritme, artikulasi, intonasi, dan properti spektral. File kecocokan digunakan sebagai referensi untuk semua perekaman berikutnya. File ini digunakan di sepanjang sesi perekaman untuk mengkalibrasi pengambilan sinyal dan memberikan panduan serta konsistensi untuk performa.

Membuat file referensi kecocokan

Proses perekaman file kecocokan dilakukan melalui kerja sama dengan direktur (yang menunjukkan jenis performa yang mereka cari) dan teknisi perekaman (yang memastikan ketepatan level spesifikasi audio yang direkam dalam file kecocokan). Semua audio yang direkam harus sesuai dengan karakteristik file kecocokan. Gunakan file ini untuk memastikan konsistensi parameter berikut di sepanjang perekaman:

  • Kontinuitas gaya dan persona
  • Nada dasar atau nada performa
  • Kecepatan bicara
  • Volume

Langkah selanjutnya

Setelah data siap, Anda dapat membuat model suara kustom.