Jenis suara

Ringkasan

Text-to-Speech menghasilkan data audio ucapan alami yang mirip manusia. Artinya, alat ini menghasilkan audio yang terdengar seperti orang yang sedang berbicara. Saat mengirim permintaan sintesis ke Text-to-Speech, Anda harus menentukan suara.

Ada berbagai pilihan suara yang dapat Anda pilih di Text-to-Speech. Suara dibedakan berdasarkan bahasa, gender, dan aksen (untuk beberapa bahasa). Beberapa bahasa memiliki beberapa suara yang dapat dipilih. Lihat halaman Suara yang Didukung untuk mengetahui daftar lengkap suara yang tersedia dalam bahasa Anda. Anda dapat memberi tahu Text-to-Speech untuk menggunakan suara tertentu dari daftar ini dengan menetapkan kolom VoiceSelectionParams saat mengirim permintaan ke API. Baca Panduan Memulai Text-to-Speech untuk mengetahui detail tentang cara mengirim permintaan synthesize.

Suara perjalanan

Suara perjalanan (eksperimental) didukung oleh kemajuan dalam pemodelan bahasa besar, yang meningkatkan kualitas sodis. Suara perjalanan dapat mengatur berbagai nada, volume, timbre, dan panjang. Fitur ini juga memiliki mekanisme ucapan yang ditingkatkan, sehingga lebih baik dalam menangani perbedaan dan interupsi dibandingkan dengan opsi suara kami yang lain. Sebaiknya bereksperimen dengan suara ini untuk kasus penggunaan ucapan percakapan.


Contoh 1. Suara en-US-Journey-D

Suara kasual (Pratinjau)

Suara kasual dirancang untuk mengelola dialog percakapan yang tidak sempurna demi kealamian dan kenyamanan dengan pengguna manusia. Tema tersebut mendukung perbedaan (oh, uh, um, mhm) serta memiliki ritme dan nuansa yang lebih alami.


Suara studio

Text-to-Speech API menyediakan paket suara premium yang disebut Studio. Jenis suara ini dirancang khusus untuk digunakan dengan teks panjang seperti narasi dan pembacaan berita.


Contoh 1. Suara en-US-Studio-O yang membaca Great Gatsby.

Suara Neural2

Text-to-Speech API menyediakan tingkat suara yang disebut Neural2. Suara Neural2 didasarkan pada teknologi yang sama dengan yang digunakan untuk membuat Suara Kustom. Neural2 memungkinkan siapa saja menggunakan teknologi Suara Kustom tanpa melatih suara kustomnya sendiri. Ini tersedia di endpoint global dan satu region.


Contoh 1. Suara Neural2

Suara WaveNet

Text-to-Speech API juga menawarkan sekelompok suara premium yang dibuat menggunakan model WaveNet, teknologi yang sama untuk membuat ucapan untuk Asisten Google, Google Penelusuran, dan Google Terjemahan. Teknologi WaveNet menyediakan lebih dari sekadar serangkaian suara sintetis: teknologi ini mewakili cara baru untuk membuat ucapan sintetik.

WaveNet menghasilkan ucapan yang terdengar lebih alami daripada sistem text-to-speech lainnya. Sistem ini mensintesis ucapan dengan penekanan dan infleksi yang lebih mirip manusia pada suku kata, fonem, dan kata-kata.

Diagram menunjukkan penutur asli bahasa lebih memilih menggunakan WaveNet Gambar 1. Diagram yang menunjukkan perbandingan WaveNet dengan suara sintetis lainnya, ucapan manusia. Nilai sumbu y mewakili Nilai Opini Rata-rata (MOS) untuk setiap suara. Subjek uji memberi peringkat setiap suara pada skala 1-5 berdasarkan seberapa alami ucapan tersebut. Untuk informasi selengkapnya tentang skor MOS dan teknologi WaveNet, lihat halaman DeepMind WaveNet.

Tidak seperti kebanyakan sistem text-to-speech lainnya, model WaveNet membuat bentuk gelombang audio mentah dari awal. Model ini menggunakan jaringan neural yang telah dilatih menggunakan sampel ucapan dalam jumlah besar. Selama pelatihan, jaringan mengekstrak struktur dasar ucapan, seperti nada yang saling mengikuti dan bentuk gelombang ucapan yang realistis. Saat menerima input teks, model WaveNet yang dilatih dapat menghasilkan bentuk gelombang ucapan yang sesuai dari awal, satu sampel pada satu waktu, dengan maksimal 24.000 sampel per detik dan transisi yang mulus antar-individu suara.

Untuk mendengar perbedaan antara klip audio yang dihasilkan WaveNet dan klip yang dihasilkan oleh proses text-to-speech lain, bandingkan dua klip audio di bawah ini.


Contoh 1. Suara non-WaveNet berkualitas tinggi


Contoh 2. Suara WaveNet

Suara standar

Suara yang ditawarkan oleh Text-to-Speech berbeda dalam cara diproduksinya, yaitu teknologi ucapan sintetis yang digunakan untuk membuat model mesin suara. Satu teknologi ucapan yang umum, text-to-speech parametrik , biasanya menghasilkan data audio dengan meneruskan output melalui algoritma pemrosesan sinyal yang dikenal sebagaivocoder. Banyak suara standar yang tersedia di Text-to-Speech menggunakan variasi dari teknologi ini.

Cobalah sendiri

Jika Anda baru menggunakan Google Cloud, buat akun untuk mengevaluasi performa Text-to-Speech dalam skenario dunia nyata. Pelanggan baru mendapatkan kredit gratis senilai $300 untuk menjalankan, menguji, dan men-deploy workload.

Coba Text-to-Speech gratis