Ringkasan
Fine-tuning Speech-to-Text memungkinkan Anda menyesuaikan model ucapan yang ada menggunakan data teks dan audio unik yang Anda miliki untuk meningkatkan akurasi layanan pengenalan ucapan.
Fine-tuning model ucapan dapat digunakan untuk mengefisienkan model ucapan dasar guna meningkatkan pengenalan transkripsi dalam kondisi akustik yang sulit, termasuk saat ada bunyi sirene, suara keras, suara bising berlebihan di latar belakang, termasuk musik atau percakapan lainnya, dan kosakata unik, termasuk nama produk khusus pelanggan atau terminologi dan aksen yang unik.
Fine-tuning model ucapan dapat diakses melalui Konsol Google Cloud dan API kami. Dengan fitur ini, Anda akan dapat melatih, mengevaluasi, dan men-deploy model ucapan khusus di lingkungan yang terintegrasi tanpa kode. Untuk pelatihan, Anda hanya perlu menyediakan data audio yang representatif dengan kondisi audio Anda, tanpa transkripsi referensi sebagai set pelatihan. Namun, Anda harus menyediakan data audio dan transkripsi referensinya sebagai bagian dari set evaluasi.
Langkah berikutnya
Untuk memanfaatkan keunggulan fine-tuning model ucapan dalam aplikasi Anda, pelajari referensi di bawah untuk men-deploy model Anda: