Tutorial ini menunjukkan cara mentranskripsikan audio yang direkam dari telepon menggunakan Speech-to-Text.
File audio dapat berasal dari berbagai sumber yang berbeda. Data audio dapat berasal dari ponsel (seperti pesan suara) atau soundtrack yang disertakan dalam file video.
Speech-to-Text dapat menggunakan salah satu dari beberapa model machine learning untuk mentranskripsikan file audio Anda, agar cocok dengan sumber asli audio. Anda bisa mendapatkan hasil transkripsi ucapan yang lebih baik dengan menentukan sumber audio asli. Hal ini memungkinkan Speech-to-Text untuk memproses file audio Anda menggunakan model machine learning yang dilatih untuk data yang mirip dengan file audio Anda.
Tujuan
- Kirim permintaan transkripsi audio untuk audio yang direkam dari ponsel (seperti pesan suara) ke Speech-to-Text.
- Tentukan model pengenalan ucapan yang ditingkatkan untuk permintaan transkripsi audio.
Biaya
Tutorial ini menggunakan komponen Cloud Platform yang dapat ditagih, termasuk:
- Speech-to-Text
Gunakan Kalkulator Harga untuk membuat perkiraan biaya berdasarkan penggunaan yang Anda proyeksikan.
Sebelum memulai
Tutorial ini memiliki beberapa prasyarat:
- Anda telah menyiapkan project Speech-to-Text di konsol Google Cloud.
- Anda telah menyiapkan lingkungan menggunakan Kredensial Default Aplikasi di konsol Google Cloud.
- Anda telah menyiapkan lingkungan pengembangan untuk bahasa pemrograman yang Anda pilih.
- Anda telah menginstal Library Klien Google Cloud untuk bahasa pemrograman yang Anda pilih.
Mengirim permintaan
Untuk mentranskripsikan audio yang direkam di ponsel, seperti panggilan telepon atau
pesan suara, Anda dapat menetapkan kolom model
dalam
payload RecognitionConfig
ke
phone_call
. Kolom model
memberi tahu Speech-to-Text API
model pengenalan ucapan yang akan digunakan untuk permintaan transkripsi.
Anda dapat meningkatkan hasil transkripsi audio telepon menggunakan
model yang ditingkatkan. Untuk menggunakan model yang ditingkatkan, tetapkan kolom useEnhanced
ke true
dalam payload RecognitionConfig
Anda.
Contoh kode berikut menunjukkan cara memilih model transkripsi tertentu saat memanggil Speech-to-Text.
Protocol
Lihat endpoint speech:recognize
API untuk detail selengkapnya.
Untuk melakukan pengenalan ucapan sinkron, buat permintaan POST
dan berikan
isi permintaan yang sesuai. Berikut ini contoh permintaan POST
yang menggunakan
curl
. Contoh ini menggunakan Google Cloud CLI untuk membuat token akses. Untuk petunjuk tentang cara menginstal gcloud CLI,
lihat panduan memulai.
curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer $(gcloud auth application-default print-access-token)" \ https://speech.googleapis.com/v1/speech:recognize \ --data '{ "config": { "encoding": "LINEAR16", "languageCode": "en-US", "enableWordTimeOffsets": false, "enableAutomaticPunctuation": true, "model": "phone_call", "useEnhanced": true }, "audio": { "uri": "gs://cloud-samples-tests/speech/commercial_mono.wav" } }'
Lihat dokumentasi referensi RecognitionConfig
untuk
mengetahui informasi selengkapnya tentang cara mengonfigurasi isi permintaan.
Jika permintaan berhasil, server akan menampilkan kode status HTTP 200 OK
dan respons dalam format JSON:
{ "results": [ { "alternatives": [ { "transcript": "Hi, I'd like to buy a Chromecast. I was wondering whether you could help me with that.", "confidence": 0.8930228 } ], "resultEndTime": "5.640s" }, { "alternatives": [ { "transcript": " Certainly, which color would you like? We are blue black and red.", "confidence": 0.9101991 } ], "resultEndTime": "10.220s" }, { "alternatives": [ { "transcript": " Let's go with the black one.", "confidence": 0.8818244 } ], "resultEndTime": "13.870s" }, { "alternatives": [ { "transcript": " Would you like the new Chromecast Ultra model or the regular Chromecast?", "confidence": 0.94733626 } ], "resultEndTime": "18.460s" }, { "alternatives": [ { "transcript": " Regular Chromecast is fine. Thank you. Okay. Sure. Would you like to ship it regular or Express?", "confidence": 0.9519095 } ], "resultEndTime": "25.930s" }, { "alternatives": [ { "transcript": " Express, please.", "confidence": 0.9101229 } ], "resultEndTime": "28.260s" }, { "alternatives": [ { "transcript": " Terrific. It's on the way. Thank you. Thank you very much. Bye.", "confidence": 0.9321616 } ], "resultEndTime": "34.150s" } ] }
Go
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Go Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Java
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Java Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Node.js
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Node.js Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Python
Untuk mempelajari cara menginstal dan menggunakan library klien untuk Speech-to-Text, lihat Library klien Speech-to-Text. Untuk mengetahui informasi selengkapnya, lihat dokumentasi referensi API Python Speech-to-Text.
Untuk mengautentikasi ke Speech-to-Text, siapkan Kredensial Default Aplikasi. Untuk mengetahui informasi selengkapnya, baca Menyiapkan autentikasi untuk lingkungan pengembangan lokal.
Bahasa tambahan
C#: Ikuti Petunjuk penyiapan C# di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk .NET.
PHP: Ikuti Petunjuk penyiapan PHP di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk PHP.
Ruby: Ikuti Petunjuk penyiapan Ruby di halaman library klien, lalu buka Dokumentasi referensi Speech-to-Text untuk Ruby.
Pembersihan
Agar tidak perlu membayar biaya pada akun Google Cloud Anda untuk resource yang digunakan dalam tutorial ini, hapus project yang berisi resource tersebut, atau simpan project dan hapus setiap resource.
Menghapus project
Cara termudah untuk menghilangkan penagihan adalah dengan menghapus project yang Anda buat untuk tutorial.
Untuk menghapus project:
- In the Google Cloud console, go to the Manage resources page.
- In the project list, select the project that you want to delete, and then click Delete.
- In the dialog, type the project ID, and then click Shut down to delete the project.
Menghapus instance
Untuk menghapus instance Compute Engine:
- In the Google Cloud console, go to the VM instances page.
- Select the checkbox for the instance that you want to delete.
- To delete the instance, click More actions, click Delete, and then follow the instructions.
Menghapus aturan firewall untuk jaringan default
Untuk menghapus aturan firewall:
- In the Google Cloud console, go to the Firewall page.
- Select the checkbox for the firewall rule that you want to delete.
- To delete the firewall rule, click Delete.