Sebaiknya Anda menemukan dan bekerja sama dengan aktor suara yang akan mewakili suara kustom yang Anda inginkan. Anda perlu merekam audio berdurasi sekitar 10 detik dengan aktor suara untuk digunakan sebagai data pelatihan. Anda juga harus merekam pernyataan izin aktor suara. Kita memerlukan waktu kurang dari beberapa menit untuk melatih dan menayangkan model yang di-clone. Tidak ada dukungan SLA untuk bug yang parah bagi fitur pra-GA.
Langkah 1: Buat data pelatihan untuk cloning
- Rekam pernyataan izin: Untuk mematuhi pedoman hukum dan etika terkait cloning suara, rekam pernyataan izin yang diperlukan sebagai file WAV mono, dengan encoding LINEAR16 dan frekuensi sampel 24 kHz, dalam bahasa yang sesuai. (Saya adalah pemilik suara ini dan saya mengizinkan Google menggunakan suara ini untuk membuat model suara sintetis.)
- Rekam audio awal: Gunakan mikrofon komputer untuk merekam audio berdurasi 10 detik sebagai file WAV mono yang dienkode LINEAR16 pada frekuensi sampling 24 kHz. Pastikan tidak ada suara bising di latar belakang selama perekaman.
- Menyimpan file audio: Menyimpan file audio yang direkam di lokasi Cloud Storage yang ditetapkan.
Langkah 2: Buat model yang di-clone
Anda dapat membuat project cloning melalui konsol Text-to-Speech.
Buka halaman Synthesize dalam konsol Text-to-Speech
Masukkan teks yang akan disintesis menjadi ucapan, lalu pilih kode bahasa target (hanya
en-US
yang berlaku).Centang kotak Suara kustom, lalu klik Buat kunci.
Lengkapi semua kolom wajib diisi di subtugas yang terbuka.
Kunci cloning suara kini akan muncul dalam bentuk sintesis:
Anda dapat menyimpan kunci ini untuk digunakan pada lain waktu guna melewati proses "Buat kunci" di masa mendatang
Alihkan bagian Advanced settings, dan masukkan 24000 di kolom Sample rate (Hertz), lalu klik Synthesize.
Untuk saat ini, kami hanya menyintesis suara yang di-clone pada 24 kHz.
Anda dapat langsung mendownload atau memutar audio untuk mendengarkan suaranya.