Dasar-dasar Cloud Text-to-Speech

Text-to-Speech memungkinkan developer membuat ucapan manusia yang terdengar alami dan sintetis sebagai audio yang dapat diputar. Anda dapat menggunakan file data audio yang dibuat menggunakan Text-to-Speech untuk mendukung aplikasi atau media peningkatan seperti rekaman video atau audio (sesuai dengan Persyaratan Layanan Google Cloud Platform) termasuk kepatuhan terhadap semua hukum yang berlaku).

Text-to-Speech mengonversi input Bahasa Markup Sintesis Ucapan (SSML) atau teks menjadi data audio seperti MP3 atau LINEAR16 (encoding yang digunakan dalam file WAV).

Dokumen ini adalah panduan konsep dasar penggunaan Text-to-Speech. Sebelum mempelajari API itu sendiri, tinjau panduan memulai.

Contoh dasar

Text-to-Speech cocok untuk aplikasi apa pun yang memutar audio ucapan manusia kepada pengguna. Alat ini memungkinkan Anda mengubah string, kata, dan kalimat arbitrer menjadi suara seseorang yang mengucapkan hal yang sama.

Bayangkan Anda memiliki aplikasi asisten suara yang memberikan masukan dengan bahasa yang natural kepada pengguna sebagai file audio yang dapat diputar. Aplikasi Anda akan melakukan suatu tindakan lalu menghasilkan audio ucapan manusia sebagai umpan balik kepada pengguna.

Misalnya, aplikasi Anda mungkin ingin melaporkan bahwa aplikasi berhasil menambahkan acara ke kalender pengguna. Aplikasi Anda membuat string respons untuk melaporkan keberhasilan aksi kepada pengguna, seperti "Saya telah menambahkan acara ke kalender Anda".

Dengan Text-to-Speech, Anda dapat mengonversi string respons tersebut menjadi ucapan manusia nyata yang dapat diputar kepada pengguna, mirip dengan contoh yang diberikan di bawah ini.


Contoh 1. File audio yang dibuat dari Text-to-Speech

Untuk membuat file audio seperti contoh 1, kirim permintaan ke Text-to-Speech seperti cuplikan kode berikut.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'I\'ve added the event to your calendar.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Standard-A',
    'ssmlGender':'FEMALE'
  },
  'audioConfig':{
    'audioEncoding':'MP3'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Sintesis ucapan

Proses menerjemahkan input teks menjadi data audio disebut sintesis dan output sintesis disebut ucapan sintesis. Text-to-Speech menggunakan dua jenis input: teks mentah atau data berformat SSML (dibahas di bawah). Untuk membuat file audio baru, panggil endpoint synthesize dari API-nya.

Proses sintesis ucapan menghasilkan data audio mentah sebagai string berenkode base64. Anda harus melakukan dekode string berenkode base64 menjadi file audio sebelum aplikasi dapat memutarnya. Sebagian besar platform dan sistem operasi memiliki alat untuk mendekode teks base64 menjadi file media yang dapat diputar.

Untuk mempelajari sintesis lebih lanjut, baca panduan memulai atau halaman Membuat File Audio Suara.

Suara

Text-to-Speech membuat data audio mentah dari ucapan alami manusia. Artinya, alat ini menghasilkan audio yang terdengar seperti orang yang sedang berbicara. Saat mengirim permintaan sintesis ke Text-to-Speech, Anda harus menentukan suara yang 'mengucapkan' kata-kata tersebut.

Text-to-Speech memiliki berbagai pilihan suara kustom yang tersedia untuk Anda gunakan. Suara dibedakan berdasarkan bahasa, gender, dan aksen (untuk beberapa bahasa). Misalnya, Anda dapat membuat audio yang meniru suara pembicara perempuan berbahasa Inggris dengan aksen Inggris Raya seperti contoh 1 di atas. Anda juga dapat mengubah teks yang sama menjadi suara yang berbeda, seperti seorang pembicara pria berbahasa Inggris dengan aksen Australia.


Contoh 2. File audio yang dibuat dengan speaker en-AU

Untuk melihat daftar lengkap suara yang tersedia, lihat Suara yang Didukung.

Suara WaveNet

Bersama dengan suara sintetis tradisional lainnya, Text-to-Speech juga memberikan suara premium yang dihasilkan WaveNet. Pengguna merasa bahwa suara buatan Wavenet lebih ramah dan mirip manusia daripada suara sintetis lainnya.

Perbedaan utama pada suara WaveNet adalah model WaveNet yang digunakan untuk menghasilkan suara. Model WaveNet telah dilatih menggunakan sampel audio mentah dari ucapan manusia nyata. Hasilnya, model ini menghasilkan ucapan sintetik dengan penekanan dan infleksi yang lebih mirip manusia pada suku kata, fonem, dan kata.

Bandingkan dua contoh ucapan sintetis berikut.


Contoh 3. File audio yang dibuat dengan suara standar


Contoh 4. File audio yang dibuat dengan suara WaveNet

Untuk mempelajari lebih lanjut manfaat suara yang dihasilkan WaveNet, lihat Jenis suara.

Setelan output audio lainnya

Selain suara, Anda juga dapat mengonfigurasi aspek lain dari output data audio yang dibuat oleh sintesis ucapan. Text-to-Speech mendukung konfigurasi kecepatan bicara, nada, volume, dan frekuensi sampel dalam hertz.

Tinjau referensi AudioConfig untuk informasi selengkapnya.

Dukungan Bahasa Markup Sintesis Ucapan (SSML)

Anda dapat meningkatkan kualitas ucapan sintetis yang dihasilkan oleh Text-to-Speech dengan memberi markup teks tersebut menggunakan Bahasa Markup Sintesis Ucapan (SSML). SSML memungkinkan Anda menyisipkan jeda, pengucapan akronim, atau detail tambahan lainnya ke dalam data audio yang dibuat oleh Text-to-Speech. Text-to-Speech mendukung subset elemen SSML yang tersedia.

Misalnya, Anda dapat memastikan bahwa ucapan sintetis mengucapkan bilangan ordinal dengan benar dengan memberikan Text-to-Speech input SSML yang menandai bilangan ordinal dengan sedemikian rupa.


Contoh 5. File audio yang dihasilkan dari input teks biasa


Contoh 6. File audio yang dibuat dari input SSML

Untuk mempelajari lebih lanjut cara melakukan sintesis pada ucapan dari SSML, lihat Membuat File Audio Suara