Praktik terbaik

Dokumen ini berisi rekomendasi tentang cara memberikan data ucapan ke Media Translation API. Pedoman ini dirancang untuk meningkatkan efisiensi dan akurasi serta waktu respons yang wajar dari layanan. Penggunaan Media Translation API akan berfungsi optimal jika data yang dikirim ke layanan berada dalam parameter yang dijelaskan dalam dokumen ini.

Untuk hasil yang optimal... Jika memungkinkan, hindari...
Merekam audio dengan frekuensi sampling 16000 Hz atau lebih tinggi. Jika tidak, setel sample_rate_hertz agar cocok dengan frekuensi sampel native sumber audio (bukan pengambilan ulang sampel). Frekuensi sampling yang lebih rendah dapat mengurangi akurasi pengenalan. Akibatnya, akurasi terjemahan juga akan berkurang. Namun, hindari pengambilan ulang sampel. Misalnya, dalam telefoni, frekuensi native biasanya 8000 Hz, yang merupakan frekuensi yang harus dikirim ke layanan.
Gunakan codec lossless untuk merekam dan mengirimkan audio. FLAC atau LINEAR16 direkomendasikan. Menggunakan mu-law atau codec lossy lainnya selama perekaman atau transmisi dapat mengurangi akurasi pengenalan. Jika audio Anda telah menggunakan encoding yang tidak didukung oleh API, transcode audio tersebut ke FLAC atau LINEAR16 lossless. Jika aplikasi Anda harus menggunakan codec lossy untuk menghemat bandwidth, kami merekomendasikan codec AMR_WB atau OGG_OPUS, dalam urutan yang diutamakan.
Gunakan codec LINEAR16 untuk mendapatkan latensi respons streaming yang baik. Jenis codec lain juga dapat menambahkan latensi respons streaming karena memerlukan langkah decoding tambahan. Untuk codec yang sama, frekuensi sampel yang lebih tinggi mungkin memiliki latensi yang lebih tinggi.
Posisikan mikrofon sedekat mungkin dengan speaker, terutama saat ada suara bising di latar belakang. Layanan pengenal dirancang untuk mengabaikan suara dan suara bising di latar belakang tanpa peredam bising tambahan. Namun, suara bising di latar belakang dan gema yang berlebihan dapat mengurangi akurasi, terutama jika codec lossy juga digunakan.
Gunakan model yang ditingkatkan untuk hasil yang lebih baik dengan audio latar belakang yang bising. Model yang belum dilengkapi mungkin tidak berperforma baik untuk audio yang berisik/gema.
Tentukan source_language_code menggunakan kode bahasa "language-region", tentukan target_language_code menggunakan kode bahasa tanpa wilayah(kecuali zh-CN dan zh-TW). Jika "region" tidak ditentukan di source_language_code, kami akan memilih region default, yang mungkin tidak cocok dengan region ucapan sebenarnya, dan mengurangi akurasinya. target_language_code tidak memerlukan wilayah karena terjemahannya adalah teks, tetapi zh-CN dan zh-TW akan berbeda dalam teks.

Satu ucapan

Untuk kueri atau perintah singkat, gunakan StreamingTranslateSpeechConfig dengan single_utterance ditetapkan ke benar. Fitur ini mengoptimalkan pengenalan ucapan singkat dan juga meminimalkan latensi. Dan layanan akan menghentikan terjemahan secara otomatis saat ada keheningan atau jeda yang lama. Saat menggunakan mode 'single_utterance', layanan akan menampilkan END_OF_SINGLE_UTTERANCE sebagai speech_event_type sebagai respons. Klien seharusnya berhenti mengirim permintaan saat mendapatkan respons END_OF_SINGLE_UTTERANCE, dan terus menerima respons yang tersisa.

Ukuran frame

Pengenalan streaming mengenali audio live saat diambil dari mikrofon atau sumber audio lainnya. Streaming audio dibagi menjadi beberapa frame dan dikirim dalam pesan StreamingTranslateSpeechRequest berurutan. Semua ukuran frame dapat diterima. Frame yang lebih besar akan lebih efisien, tetapi meningkatkan latensi. Ukuran frame 100 milidetik direkomendasikan sebagai kompromi yang baik antara latensi dan efisiensi.

Pra-pemrosesan audio

Sebaiknya sediakan audio yang sebersih mungkin dengan menggunakan mikrofon yang berkualitas baik dan diposisikan dengan tepat. Namun, menerapkan pemrosesan sinyal pengurang bising ke audio sebelum mengirimkannya ke layanan biasanya akan mengurangi akurasi pengenalan. Layanan pengenalan dirancang untuk mengatasi audio yang bising.

Untuk mendapatkan hasil terbaik:

  • Posisikan mikrofon sedekat mungkin dengan pembicara, terutama jika ada suara bising di latar belakang.
  • Hindari pemangkasan audio.
  • Jangan gunakan kontrol penguatan otomatis (AGC).
  • Semua pemrosesan pengurangan bising harus dinonaktifkan.
  • Dengarkan beberapa sampel audio. Suara harus terdengar jernih, tanpa distorsi, atau derau yang tidak terduga.

Konfigurasi permintaan

Pastikan Anda menjelaskan secara akurat data audio yang dikirim bersama permintaan ke Media Translation API. Memastikan TranslateSpeechConfig untuk permintaan Anda menjelaskan sample_rate_hertz, audio_encoding, dan source_language_code dan target_language_code yang benar akan menghasilkan transkripsi dan penagihan yang paling akurat untuk permintaan Anda.