Mentranskripsi ucapan menjadi teks menggunakan API
Halaman ini menjelaskan cara mengirim permintaan pengenalan ucapan ke Speech-to-Text menggunakan antarmuka REST dan perintah curl
.
Speech-to-Text memudahkan integrasi teknologi pengenalan ucapan Google ke dalam aplikasi developer. Anda dapat mengirim data audio ke Speech-to-Text API, yang kemudian menampilkan transkripsi teks dari file audio tersebut. Untuk mengetahui informasi selengkapnya tentang layanan ini, lihat Dasar-dasar Speech-to-Text.
Sebelum memulai
Sebelum dapat mengirim permintaan ke Speech-to-Text API, Anda harus sudah menyelesaikan tindakan berikut. Lihat halaman sebelum memulai untuk mengetahui detailnya.
- Aktifkan Speech-to-Text di project GCP.
- Pastikan penagihan diaktifkan untuk Speech-to-Text.
-
Install the Google Cloud CLI, then initialize it by running the following command:
gcloud init
- (Opsional) Buat bucket Google Cloud Storage baru untuk menyimpan data audio Anda.
Membuat permintaan transkripsi audio
Sekarang Anda dapat menggunakan Speech-to-Text untuk mentranskripsi file audio menjadi teks. Gunakan contoh kode berikut untuk mengirim permintaan REST recognize
ke Speech-to-Text API.
-
Buat file permintaan JSON dengan teks berikut, lalu simpan sebagai file teks biasa
sync-request.json
:{ "config": { "encoding":"FLAC", "sampleRateHertz": 16000, "languageCode": "en-US", "enableWordTimeOffsets": false }, "audio": { "uri":"gs://cloud-samples-tests/speech/brooklyn.flac" } }
Cuplikan JSON di atas menunjukkan bahwa file audio ini memiliki format encoding FLAC, frekuensi sampel 16.000 Hz, dan disimpan di Google Cloud Storage pada URI yang ditentukan. File audio ini dapat diakses secara publik, jadi Anda tidak memerlukan kredensial autentikasi untuk mengaksesnya.
-
Gunakan
curl
untuk membuat permintaanspeech:recognize
, dengan meneruskan nama file permintaan JSON yang Anda siapkan di langkah 1:Contoh perintah
curl
ini menggunakan perintahgcloud auth print-access-token
untuk mendapatkan token autentikasi.curl -s -H "Content-Type: application/json" \ -H "Authorization: Bearer "$(gcloud auth print-access-token) \ https://speech.googleapis.com/v1/speech:recognize \ -d @sync-request.json
Perhatikan bahwa untuk meneruskan nama file ke
curl
, Anda menggunakan opsi-d
(untuk "data") dan mengawali nama file dengan tanda@
. File ini harus berada di direktori yang sama dengan tempat Anda menjalankan perintahcurl
.Anda akan melihat respons seperti berikut:
{ "results": [ { "alternatives": [ { "transcript": "how old is the Brooklyn Bridge", "confidence": 0.98267895 } ] } ] }
Selamat! Anda telah mengirimkan permintaan pertama ke Speech-to-Text.
Jika Anda menerima error atau respons kosong dari Speech-to-Text, lihat langkah-langkah pemecahan masalah dan mitigasi error.
Pembersihan
Agar akun Google Cloud Anda tidak dikenakan biaya untuk resource yang digunakan pada halaman ini, ikuti langkah-langkah berikut.
- Gunakan konsol Google Cloud untuk menghapus project jika Anda tidak membutuhkannya.
Langkah selanjutnya
- Berlatih mentranskripsikan file audio pendek.
- Pelajari cara membuat batch file audio panjang untuk pengenalan ucapan.
- Pelajari cara mentranskripsi audio streaming dari, misalnya, mikrofon.
- Mulai gunakan Speech-to-Text dalam bahasa pilihan Anda menggunakan library klien Speech-to-Text.
- Pelajari contoh aplikasi.
- Untuk performa terbaik, akurasi, dan tips lainnya, lihat dokumentasi praktik terbaik.