Suara Standar, WaveNet, Neural2, dan Studio

Ringkasan

Text-to-Speech membuat data audio mentah dari ucapan alami manusia. Artinya, alat ini menghasilkan audio yang terdengar seperti orang yang sedang berbicara. Saat mengirim permintaan sintesis ke Text-to-Speech, Anda harus menentukan suara yang 'mengucapkan' kata-kata tersebut.

Ada berbagai pilihan suara yang dapat Anda pilih di Text-to-Speech. Suara dibedakan berdasarkan bahasa, gender, dan aksen (untuk beberapa bahasa). Beberapa bahasa memiliki beberapa suara yang dapat dipilih. Lihat halaman Suara yang Didukung untuk mengetahui daftar lengkap suara yang tersedia dalam bahasa Anda. Anda dapat memberi tahu Text-to-Speech untuk menggunakan suara tertentu dari daftar ini dengan menetapkan kolom VoiceSelectionParams saat mengirim permintaan ke API. Baca Panduan Memulai Text-to-Speech untuk mengetahui detail tentang cara mengirim permintaan synthesize.

Suara Neural2

Text-to-Speech API menyediakan paket suara premium yang disebut Neural2. Suara Neural2 didasarkan pada teknologi yang sama dengan yang digunakan untuk membuat Suara Kustom. Neural2 mewakili pembuatan suara sintetis terbaru dan memungkinkan siapa saja menggunakan teknologi Suara Kustom tanpa melatih suara kustom mereka. Ini tersedia di endpoint global dan satu region.


Contoh 1. Suara Neural2

Suara studio (Pratinjau)

Text-to-Speech API menyediakan suara Studio. Jenis suara ini dirancang khusus untuk digunakan dengan teks panjang seperti narasi dan pembacaan berita.


Contoh 1. Suara en-US-Studio-O yang membaca Great Gatsby.

Suara standar

Suara yang ditawarkan oleh Text-to-Speech berbeda dalam cara diproduksinya, yaitu teknologi ucapan sintetis yang digunakan untuk membuat model mesin suara. Satu teknologi ucapan yang umum, text-to-speech parametrik , biasanya menghasilkan data audio dengan meneruskan output melalui algoritma pemrosesan sinyal yang dikenal sebagaivocoder. Banyak suara standar yang tersedia di Text-to-Speech menggunakan variasi dari teknologi ini.

Suara WaveNet

Text-to-Speech API juga menawarkan sekelompok suara premium yang dibuat menggunakan model WaveNet, teknologi yang sama untuk membuat ucapan untuk Asisten Google, Google Penelusuran, dan Google Terjemahan. Teknologi WaveNet menyediakan lebih dari sekadar serangkaian suara sintetis: teknologi ini mewakili cara baru untuk membuat ucapan sintetik.

WaveNet menghasilkan ucapan yang terdengar lebih alami daripada sistem text-to-speech lainnya. Sistem ini mensintesis ucapan dengan penekanan dan infleksi yang lebih mirip manusia pada suku kata, fonem, dan kata-kata.

Diagram menunjukkan penutur asli bahasa lebih memilih menggunakan WaveNet Gambar 1. Diagram yang menunjukkan perbandingan WaveNet dengan suara sintetis lainnya, ucapan manusia. Nilai sumbu y mewakili Nilai Opini Rata-rata (MOS) untuk setiap suara. Subjek uji memberi peringkat setiap suara pada skala 1-5 berdasarkan seberapa alami ucapan tersebut. Untuk informasi selengkapnya tentang skor MOS dan teknologi WaveNet, lihat halaman DeepMind WaveNet.

Tidak seperti kebanyakan sistem text-to-speech lainnya, model WaveNet membuat bentuk gelombang audio mentah dari awal. Model ini menggunakan jaringan neural yang telah dilatih menggunakan sampel ucapan dalam jumlah besar. Selama pelatihan, jaringan mengekstrak struktur dasar ucapan, seperti nada yang saling mengikuti dan bentuk gelombang ucapan yang realistis. Saat menerima input teks, model WaveNet yang dilatih dapat menghasilkan bentuk gelombang ucapan yang sesuai dari awal, satu sampel pada satu waktu, dengan maksimal 24.000 sampel per detik dan transisi yang mulus antar-individu suara.

Untuk mengetahui perbedaan antara klip audio yang dihasilkan Wavenet dan klip yang dihasilkan oleh proses text-to-speech lainnya, bandingkan kedua klip audio di bawah ini.


Contoh 1. Suara non-WaveNet berkualitas tinggi


Contoh 2. Suara WaveNet

Cobalah sendiri

Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa Text-to-Speech dalam skenario dunia nyata. Pelanggan baru mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Coba Text-to-Speech gratis