Halaman ini menjelaskan cara menggunakan model machine learning tertentu untuk permintaan transkripsi audio ke Speech-to-Text.
Model transkripsi
Speech-to-Text mendeteksi kata-kata dalam klip audio dengan membandingkan input dengan salah satu dari banyak model machine learning. Setiap model telah dilatih dengan menganalisis jutaan contoh—dalam hal ini, rekaman audio orang berbicara dalam jumlah yang amat sangat banyak.
Speech-to-Text memiliki model khusus yang dilatih dari audio yang berasal dari sumber tertentu. Model semacam ini memberikan hasil yang lebih baik saat diterapkan pada jenis data audio yang mirip dengan data yang digunakan untuk melatihnya.
Misalnya, Speech-to-Text memiliki model transkripsi terlatih untuk mengenali ucapan yang direkam melalui telepon. Saat menggunakan model telephony
untuk mentranskripsi audio telepon, Speech-to-Text akan menghasilkan hasil transkripsi yang lebih akurat dibandingkan jika, misalnya, mentranskripsi audio telepon dengan model latest_long
ataumedical_dictation
.
Tabel berikut menunjukkan model transkripsi yang tersedia untuk digunakan dengan Speech-to-Text.
Nama model | Deskripsi |
---|---|
long |
Gunakan model ini untuk semua jenis konten berdurasi panjang, seperti media atau ucapan dan percakapan spontan. Pertimbangkan untuk menggunakan model ini sebagai ganti model `video` atau `default`, terutama jika tidak tersedia dalam bahasa target Anda. |
short |
Gunakan model ini untuk ucapan singkat yang berdurasi beberapa detik. Hal ini berguna untuk mencoba merekam perintah atau kasus penggunaan ucapan singkat lainnya yang diarahkan. Pertimbangkan untuk menggunakan model ini alih-alih model perintah dan penelusuran. |
telephony |
Gunakan model ini untuk audio yang berasal dari panggilan telepon audio, biasanya direkam pada frekuensi sampling 8 kHz. Cocok untuk layanan pelanggan, telekonferensi, dan aplikasi kios otomatis. |
medical_dictation |
Gunakan model ini untuk mentranskripsikan catatan yang didikte oleh tenaga medis profesional, misalnya, dokter yang mendikte catatan tentang hasil tes darah pasien. |
medical_conversation |
Gunakan model ini untuk percakapan antara penyedia layanan medis, misalnya, dokter atau perawat, dan pasien. Gunakan model `medical_conversation` saat penyedia dan pasien berbicara. Kata-kata yang diucapkan oleh setiap pembicara akan otomatis terdeteksi dan diberi label secara otomatis. |
chirp |
Gunakan Universal Large Speech Model(USM) kami, untuk transkripsi non-streaming canggih dalam beragam konten linguistik dan kemampuan multibahasa. |
chirp_telephony |
Universal Large Speech Model(USM) yang disesuaikan untuk audio yang berasal dari panggilan telepon (biasanya direkam pada frekuensi sampling 8 kHz). |
chirp_2 |
Gunakan Universal Large Speech Model (USM) generasi berikutnya yang didukung oleh Gemini untuk mendapatkan transkripsi dan terjemahan non-streaming dalam beragam konten linguistik dan kemampuan multibahasa. |
Memilih model untuk transkripsi audio
Model ini ditentukan oleh Pengenal yang digunakan untuk permintaan pengenalan. Panggil speech/projects.locations.recognizers/create
untuk membuat pengenal, dan gunakan kolom model
untuk menentukan model. Model yang valid untuk setiap bahasa dapat ditemukan di tabel Bahasa yang Didukung.