Dasar-dasar Cloud Text-to-Speech

Text-to-Speech memungkinkan developer membuat ucapan sintetis yang terdengar alami seperti manusia sebagai audio yang dapat diputar. Anda dapat menggunakan file data audio yang dibuat menggunakan Text-to-Speech untuk mendukung aplikasi, atau melengkapi media seperti rekaman video atau audio (sesuai dengan Persyaratan Layanan Google Cloud Platform), termasuk kepatuhan terhadap semua hukum yang berlaku).

Text-to-Speech mengonversi input Speech Synthesis Markup Language (SSML) atau teks menjadi data audio seperti MP3 atau LINEAR16 (encoding yang digunakan dalam file WAV).

Dokumen ini adalah panduan konsep dasar penggunaan Text-to-Speech. Sebelum mempelajari API itu sendiri, tinjau panduan memulai.

Contoh dasar

Text-to-Speech cocok untuk aplikasi apa pun yang memutar audio ucapan manusia kepada pengguna. Alat ini memungkinkan Anda mengubah string, kata, dan kalimat arbitrer menjadi suara seseorang yang mengucapkan hal yang sama.

Bayangkan Anda memiliki aplikasi asisten suara yang memberikan masukan dengan bahasa alami kepada pengguna sebagai file audio yang dapat diputar. Aplikasi Anda akan melakukan suatu tindakan, lalu menghasilkan audio ucapan manusia sebagai masukan kepada pengguna.

Misalnya, aplikasi Anda mungkin ingin melaporkan bahwa penambahan acara ke kalender pengguna telah berhasil. Aplikasi Anda membuat string respons untuk melaporkan keberhasilan itu kepada pengguna, seperti "Saya telah menambahkan acara ke kalender Anda".

Dengan Text-to-Speech, Anda dapat mengonversi string respons tersebut menjadi ucapan manusia sungguhan yang dapat diperdengarkan kepada pengguna, mirip dengan contoh yang diberikan di bawah ini.


Contoh 1. File audio yang dibuat dari Text-to-Speech

Untuk membuat file audio seperti contoh 1, kirim permintaan ke Text-to-Speech seperti cuplikan kode berikut.

curl -H "Authorization: Bearer "$(gcloud auth print-access-token) -H "x-goog-user-project: <var>PROJECT_ID</var>" -H "Content-Type: application/json; charset=utf-8" --data "{
  'input':{
    'text':'With Cloud machine learning, your application interprets images, texts, and more.'
  },
  'voice':{
    'languageCode':'en-gb',
    'name':'en-GB-Chirp3-HD-Charon',
  },
  'audioConfig':{
    'audioEncoding':'LINEAR16'
  }
}" "https://texttospeech.googleapis.com/v1/text:synthesize"

Sintesis ucapan

Proses mengubah input teks menjadi data audio disebut sintesis dan output dari sintesis disebut ucapan sintetis. Text-to-Speech menggunakan dua jenis input: teks mentah atau data berformat SSML (dibahas di bawah). Untuk membuat file audio baru, panggil endpoint synthesize dari API-nya.

Proses sintesis ucapan menghasilkan data audio mentah sebagai string berenkode base64. Anda harus melakukan dekode string berenkode base64 menjadi file audio sebelum aplikasi dapat memutarnya. Sebagian besar platform dan sistem operasi memiliki alat untuk mendekode teks base64 menjadi file media yang dapat diputar.

Untuk mempelajari lebih lanjut sintesis, baca panduan memulai atau halaman Membuat File Audio Suara.

Suara

Text-to-Speech membuat data audio mentah dari ucapan alami manusia. Artinya, alat ini menghasilkan audio yang terdengar seperti suara orang berbicara. Saat mengirim permintaan sintesis ke Text-to-Speech, Anda harus menentukan suara yang 'mengucapkan' kata-kata tersebut.

Text-to-Speech memiliki berbagai pilihan suara kustom yang tersedia untuk Anda gunakan. Suara dibedakan berdasarkan bahasa, gender, dan aksen (untuk beberapa bahasa). Misalnya, Anda dapat membuat audio yang meniru suara penutur perempuan berbahasa Inggris dengan aksen Inggris Raya seperti contoh 1 di atas. Anda juga dapat mengubah teks yang sama menjadi suara yang berbeda, misalnya seorang penutur pria berbahasa Inggris dengan aksen Australia.


Contoh 2. File audio yang dibuat dengan penutur en-AU

Untuk melihat daftar lengkap suara yang tersedia, lihat Suara yang Didukung.

Setelan output audio lainnya

Selain suara, Anda juga dapat mengonfigurasi aspek lain dari output data audio yang dibuat oleh sintesis ucapan. Text-to-Speech mendukung konfigurasi kecepatan bicara, tinggi nada, volume, dan frekuensi sampel dalam hertz.

Tinjau referensi AudioConfig untuk mengetahui informasi selengkapnya.

Dukungan Speech Synthesis Markup Language (SSML)

Anda dapat meningkatkan kualitas ucapan sintetis yang dihasilkan oleh Text-to-Speech dengan memberi markup pada teks tersebut menggunakan Speech Synthesis Markup Language (SSML). SSML memungkinkan Anda menyisipkan jeda, pengucapan akronim, atau detail tambahan lainnya ke dalam data audio yang dibuat oleh Text-to-Speech. Text-to-Speech mendukung subset elemen SSML yang tersedia.

Misalnya, Anda dapat memastikan ucapan sintetis melafalkan bilangan ordinal dengan benar melalui pemberian Text-to-Speech dengan input SSML yang menandai bilangan ordinal sebagaimana mestinya.


Contoh 5. File audio yang dihasilkan dari input teks biasa


Contoh 6. File audio yang dibuat dari input SSML

Untuk mempelajari lebih lanjut cara melakukan sintesis ucapan dari SSML, lihat Membuat File Audio Suara