Gunakan fungsi benchmark Konsol Cloud Speech-to-Text untuk mengukur akurasi model transkripsi yang digunakan di Speech-to-Text V2 API.
Konsol Cloud Speech-to-Text menyediakan benchmark visual untuk model Speech-to-Text Terlatih dan Kustom. Anda dapat memeriksa kualitas pengenalan dengan membandingkan metrik evaluasi Word-Error-Rate (WER) di beberapa model transkripsi untuk membantu Anda memutuskan model mana yang paling sesuai dengan aplikasi Anda.
Sebelum memulai
Pastikan Anda telah mendaftar ke akun Google Cloud , membuat project, melatih model ucapan kustom, dan men-deploy menggunakan endpoint.
Membuat set data ground truth
Untuk membuat set data benchmark kustom, kumpulkan sampel audio yang secara akurat mencerminkan jenis traffic yang akan dihadapi model transkripsi di lingkungan produksi. Durasi gabungan file audio ini idealnya harus mencakup minimal 30 menit dan tidak melebihi 10 jam. Untuk menyusun set data, Anda harus:
- Buat direktori di bucket Cloud Storage pilihan Anda untuk menyimpan file audio dan teks untuk set data.
- Untuk setiap file audio dalam set data, buat transkripsi yang cukup akurat. Untuk setiap file audio (seperti
example_audio_1.wav
), file teks ground truth yang sesuai (example_audio_1.txt
) harus dibuat. Layanan ini menggunakan pasangan audio-teks ini di bucket Cloud Storage untuk menyusun set data.
Melakukan benchmark pada model
Dengan menggunakan model Speech-to-Text Kustom dan set data benchmark untuk menilai akurasi model, ikuti Panduan mengukur dan meningkatkan akurasi.