Persyaratan data pelatihan

Melatih suara khusus bisa menjadi pengalaman yang menyenangkan. Untuk memastikan model yang dihasilkan mematuhi visi Anda, ikuti petunjuk ini dan pertimbangkan untuk bekerja dengan partner atau sutradara suara.

Meskipun beberapa variabilitas gaya membantu menghidupkan suara, konsistensi performa penting di seluruh rekaman Anda. Setiap rekaman dengan perubahan energi, persona, tingkat proyeksi, atau suara vokal yang signifikan (misalnya karena kelelahan) harus diambil ulang, mungkin setelah jeda sejenak untuk pengisi suara. File referensi kecocokan harus diputar secara berkala untuk aktor dan sutradara untuk memastikan konsistensi di semua baris yang direkam.

Pembuatan skrip

Sebaiknya gunakan skrip Anda sendiri yang sesuai dengan kebutuhan persona dan bisnis Anda. Jika Anda tidak memiliki skrip, Anda dapat membuatnya dengan Gemini atau menggunakan skrip kami, yang disediakan dalam setiap bahasa yang didukung: de-DE | en-US | en-GB | es-US | es-ES | fr5}fr2 | fr-CA | en-AU |fr-CAit-ITja-JPpt-BR

Jika Anda membuat skrip sendiri, formatnya harus mengikuti pola yang serupa:

  • 500 rekaman individu (Jumlah total semua file rekaman harus sekitar 20 hingga 30 menit.)
  • Sekitar satu rekaman per baris

Pemformatan data

Anda perlu memberikan file csv untuk membantu menyelaraskan audio dengan skrip Anda dengan benar. Berikut adalah contoh file CSV.

  • Setiap rekaman hanya boleh menyertakan satu baris dari skrip yang disimpan sebagai file WAV. Beri nama file pertama Anda 0001.wav, beri nama file kedua Anda dengan 0002.wav, dan seterusnya.
  • Kolom 1: Tanpa header. Baris skrip dalam file audio.
  • URI gsutil dari file audio WAV. Contoh: gs://YOUR_BUCKET_NAME/0001.wav.
  • Menyelaraskan CSV dengan audio secara tepat sehingga ada file audio yang sesuai untuk setiap baris transkrip dan tidak ada baris kosong.
  • Tips: Hanya sertakan apa yang diucapkan dalam transkripsi.
    • Jangan tambahkan nomor baris (5. Di mana pelangi?) atau kode yang tidak dibaca (Kode pos 08654 harus diformat sebagai Kode pos nol delapan enam lima empat.).
    • Sering kali kata-kata akhir yang diucapkan berbeda dari naskah awal. Untuk mendapatkan kualitas terbaik, pastikan untuk menyesuaikan CSV ke kata akhir yang diucapkan, bukan menyalin dan menempelkan skrip.
    • Jika Anda melihat urutan karakter yang dipisahkan dengan spasi, ucapkan setiap karakter satu per satu. Ucapkan setiap huruf di bagian optimize satu per satu.

Rekomendasi perekaman

Ini adalah persyaratan perekaman yang ideal. Meskipun model masih dapat dilatih tanpa memenuhi persyaratan ini, kami tidak dapat menjamin kualitas model tersebut. Persyaratan yang paling penting dan sering diabaikan adalah: * Format file audio standar (48kHz/24bit, WAV). Audio dapat direkam pada frekuensi sampling yang lebih tinggi dan dikurangi sampelnya ke 48 kHz/24 bit. Jangan melakukan up-sampling audio dengan tarif yang lebih rendah. * Volume rata-rata target adalah -23 LUFS +- 2 (ITU-R BS.1770-3).

Spesifikasi perekaman

  • Format file audio standar (48 kHz/24 bit, WAV). Audio dapat direkam pada frekuensi sampling yang lebih tinggi dan dikurangi sampelnya ke 48 kHz/24 bit. Jangan melakukan up-sampling audio dengan tarif yang lebih rendah.
  • Audio harus direkam tanpa kompresi lossy. Diperlukan format Linear PCM (LPCM) dengan header WAV. Sediakan audio mono.
  • Studio perekaman profesional berkualitas tinggi dengan reflection time (RT) atau waktu peluruhan (suara ruangan) rendah.
    • Semua permukaan yang memantulkan suara harus dilapisi busa akustik hingga waktu RT turun hingga level serendah mungkin.
  • Mikrofon kondensor diafragma besar profesional (U87, TLM 193, atau yang sebanding).
  • Signal-to-noise ratio (SNR) yang tinggi, dengan staging dan penempatan mikrofon yang tepat.
  • File audio harus memiliki kesenyapan singkat di awal dan akhir (>100 md dan <500 md). Jangan tambahkan kesenyapan digital (yaitu, tambahkan urutan 0).
  • Audio harus direkam rata tanpa ekualisasi, kompresi, atau DSP lainnya.
  • Pastikan perekaman bersih, tanpa derau latar belakang atau saluran yang mengganggu.
  • Artefak linguistik spesifik yang harus dihindari: Vokal/creak, penyampaian napas, tersendat atau berhenti sementara di tengah kalimat

File referensi kecocokan

Rekaman referensi, atau file pencocokan, adalah file yang diambil di awal project perekaman. File-file ini digunakan selama keseluruhan project perekaman dan tidak boleh berubah. Atribut tersebut mewakili karakteristik ciri khas performa dalam hal persona, volume, energi, ritme, artikulasi, intonasi, dan properti spektrum. File kecocokan digunakan sebagai referensi untuk semua perekaman berikutnya. File ini digunakan di sepanjang sesi perekaman untuk mengkalibrasi pengambilan sinyal dan memberikan panduan serta konsistensi untuk performa.

Membuat file referensi kecocokan

Proses perekaman file kecocokan dilakukan melalui kerja sama dengan direktur (yang menunjukkan jenis performa yang mereka cari) dan teknisi perekaman (yang memastikan ketepatan level spesifikasi audio yang direkam dalam file kecocokan). Semua audio yang direkam harus sesuai dengan karakteristik file kecocokan. Gunakan file ini untuk memastikan konsistensi parameter berikut di sepanjang perekaman:

  • Kontinuitas persona dan gaya
  • Argumen utama atau nuansa pertunjukan
  • Kecepatan ucapan
  • Volume

Langkah selanjutnya

Setelah data siap, Anda dapat membuat model suara kustom.