Dokumen ini berisi rekomendasi tentang cara menyediakan data ucapan ke Speech-to-Text API. Pedoman ini dirancang untuk meningkatkan efisiensi dan akurasi serta waktu respons yang wajar dari layanan. Penggunaan Speech-to-Text API akan optimal jika data yang dikirim ke layanan berada dalam parameter yang dijelaskan dalam dokumen ini.
Jika Anda mengikuti panduan ini dan tidak mendapatkan hasil yang diharapkan dari API, lihat Pemecahan Masalah & Dukungan.
Untuk hasil yang optimal... | Jika memungkinkan, hindari... |
---|---|
Merekam audio dengan frekuensi sampling 16.000 Hz atau lebih tinggi. | Frekuensi sampling yang lebih rendah dapat mengurangi akurasi. Namun, hindari pengambilan ulang sampel. Misalnya, dalam telefoni, frekuensi native biasanya 8000 Hz, yang merupakan frekuensi yang harus dikirim ke layanan. |
Gunakan codec lossless untuk merekam dan mengirimkan audio. FLAC atau LINEAR16 direkomendasikan. |
Penggunaan codec mp3, mp4, m4a, mu-law, a-law, atau codec lossy lainnya selama perekaman atau pengiriman dapat mengurangi akurasi. Jika audio Anda telah menggunakan encoding yang tidak didukung oleh API, transcode audio tersebut ke FLAC atau LINEAR16 lossless. Jika aplikasi Anda harus menggunakan codec lossy untuk menghemat bandwidth, kami merekomendasikan codec AMR_WB atau OGG_OPUS dalam urutan tersebut. |
Pengenal didesain untuk mengabaikan suara dan derau di latar belakang tanpa peredam bising tambahan. Namun, untuk hasil optimal, posisikan mikrofon sedekat mungkin dengan pengguna, terutama saat ada suara bising di latar belakang. | Suara bising di latar belakang dan gema yang berlebihan dapat mengurangi akurasi, terutama jika codec lossy juga digunakan. |
Jika Anda merekam audio dari beberapa orang, dan setiap orang direkam di saluran terpisah, kirim setiap saluran secara terpisah untuk mendapatkan hasil pengenalan terbaik. Namun, jika semua speaker dicampur dalam satu rekaman saluran, kirim rekaman apa adanya. | Beberapa orang yang berbicara bersamaan, atau dengan volume yang berbeda, dapat ditafsirkan sebagai suara bising di latar belakang dan diabaikan. |
Gunakan petunjuk kata dan frasa untuk menambahkan nama dan istilah ke kosakata dan meningkatkan akurasi kata dan frasa tertentu. | Pengenal memiliki kosakata yang sangat besar, tetapi istilah dan nama diri yang tidak dicakup dalam kosakata tidak akan dikenali. |
Frekuensi pengambilan sampel
Jika memungkinkan, tetapkan frekuensi sampling sumber audio ke 16.000 Hz.
Untuk codec tanpa header, gunakan setelan explicit_decoding_config di RecognitionConfig untuk menetapkan sample_rate_hertz agar cocok dengan frekuensi sampel native sumber audio ( alih-alih melakukan pengambilan sampel ulang).
Untuk codec dengan header, gunakan setelan auto_decoding_config di RecognitionConfig untuk memilih frekuensi sampling yang benar secara otomatis.
Ukuran frame
Pengenalan streaming mengenali audio live saat diambil dari mikrofon
atau sumber audio lainnya. Streaming audio dibagi menjadi beberapa frame dan dikirim dalam
pesan StreamingRecognizeRequest
berurutan. Semua ukuran frame dapat diterima.
Frame yang lebih besar akan lebih efisien, tetapi meningkatkan latensi. Ukuran frame 100 milidetik direkomendasikan sebagai kompromi yang baik antara latensi dan efisiensi.
Pra-pemrosesan audio
Sebaiknya sediakan audio yang sebersih mungkin dengan menggunakan mikrofon yang berkualitas baik dan diposisikan dengan tepat. Namun, menerapkan pemrosesan sinyal pengurang bising ke audio sebelum mengirimkannya ke layanan biasanya akan mengurangi akurasi pengenalan. Layanan ini dirancang untuk menangani audio yang bising.
Untuk mendapatkan hasil terbaik:
- Posisikan mikrofon sedekat mungkin dengan pembicara, terutama jika ada suara bising di latar belakang.
- Hindari pemangkasan audio.
- Jangan gunakan kontrol penguatan otomatis (AGC).
- Semua pemrosesan pengurangan bising harus dinonaktifkan.
- Dengarkan beberapa sampel audio. Suara harus terdengar jernih, tanpa distorsi, atau derau yang tidak terduga.
Konfigurasi permintaan
Pastikan Anda menjelaskan secara akurat data audio yang dikirim bersama permintaan ke Speech-to-Text API. Memastikan bahwa
RecognitionConfig
untuk permintaan Anda menjelaskansampleRateHertz
danencoding
, dan bahwa
Anda menggunakanPengenal
dengan language_codes
dan model
yang benar akan menghasilkan transkripsi dan penagihan
yang paling akurat untuk permintaan Anda.
Langkah berikutnya
- Gunakan library klien untuk mentranskripsikan audio menggunakan bahasa pemrograman favorit Anda.
- Berlatih mentranskripsikan file audio pendek.
- Pelajari cara mentranskripsikan audio streaming.
- Pelajari cara mentranskripsi file audio panjang.